-
公开(公告)号:CN114203192A
公开(公告)日:2022-03-18
申请号:CN202111482900.0
申请日:2021-12-07
Applicant: 杭州电子科技大学
IPC: G10L21/013 , G10L25/30
Abstract: 本发明公开了一种采用循环帧单元选择的语音转换方法及系统,本发明方法按如下步骤:S1,使用源说话人和目标说话人的语音数据库,用SI‑DNN提取出音素后验概率作为频谱特征,获得基音频率作为韵律特征,分别使用KL散度和对数刻度上的绝对差作为特征失真程度的度量;S2,根据语音帧之间的特征失真,针对每个源帧找出与其距离最小的K个目标候选帧,从而对一段T帧的语音能构造对应的大小为T×K的候选矩阵,后搜索出最佳轨迹,再利用找出的最佳轨迹作为新的源语音输入,不断优化转换后的语音,直到找出效果最好的目标帧序列;S3,用RNN‑LSTM处理得到最佳韵律轨迹,获得增强的音调周期和音调相关性,再与最佳频谱轨迹合成语音波形,输出转换后的语音。
-
公开(公告)号:CN114582363A
公开(公告)日:2022-06-03
申请号:CN202210156203.4
申请日:2022-02-21
Applicant: 杭州电子科技大学
IPC: G10L21/007 , G10L25/24 , G10L25/30
Abstract: 本发明用于非平行语料的语音转换方法:(1)获取源说话人的语音数据库,提取源说话人的Mel谱图x,作为转换用的语音特征;(2)创建与源说话人Mel谱图x大小相同的时间掩码m,将m加到x上,填补x上缺少的帧,得到x′;(3)提取源说话人的基音频率F0,将F0经对数高斯归一化变换转换成目标说话人的基频F0′;(4)训练CycleGAN模型,在对抗损失中加入梯度惩罚;(5)变化总体目标函数;(6)将(2)、(3)得到的x′、基频F0′和创建的时间掩码m一起输入生成器GX→Y中,F0′作为辅助特征,调整Mel谱图的转换方向,生成器将x′转换成目标语音的Mel谱图y′;(7)把得到的转换Mel谱图y′馈入声码器中合成语音波形,获得与目标说话人相似的语音。
-
公开(公告)号:CN114283849A
公开(公告)日:2022-04-05
申请号:CN202111612756.8
申请日:2021-12-27
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种伪装语音检测系统及方法,系统包括如下:纹理分析模块:用于提取训练语音和评估语音的CSLBP特征向量,并将CSLBP特征向量输入随机森林分类器;随机森林分类器:根据纹理分析模块输入的训练语音的CSLBP特征向量进行训练得到分类模型;进行伪装语音检测时,经纹理分析模块处理的评估语音的CSLBP特征向量输入到分类模型中即可判别语音真伪。本发明根据真伪语音的纹理差异,提取语音信号的CSLBP特征做特征向量,不仅利用了语谱图中像素点的灰度值大小信息,还利用了各像素点的空间位置信息,与传统LBP特征相比包含的纹理信息更加丰富,提高了伪装语音检测的准确性。
-
公开(公告)号:CN113436646B
公开(公告)日:2022-09-23
申请号:CN202110648176.8
申请日:2021-06-10
Applicant: 杭州电子科技大学
Abstract: 本发明涉及一种采用联合特征与随机森林的伪装语音检测方法,包括以下步骤:S1、从训练语音库中随机选取真语音和伪语音,分别对随机选取的各语音进行LBP局部纹理特征和CQCC声学特征的提取,并将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量,以得到训练数据集;S2、利用训练数据集对随机森林进行训练,以生成随机森林分类器;S3、将待测语音进行LBP局部纹理特征和CQCC声学特征的提取,并将LBP局部纹理特征和CQCC声学特征联合组成待测联合特征向量,将待测联合特征向量输入随机森林分类器以对待测语音进行真伪检测。本发明对待测语音进行真伪检测,有效提升ASV系统的安全性。
-
公开(公告)号:CN113380264A
公开(公告)日:2021-09-10
申请号:CN202110558455.5
申请日:2021-05-21
Applicant: 杭州电子科技大学
IPC: G10L21/013
Abstract: 本发明用于非对称语料的语音转换方法:从训练数据集中所有语音段的集合中采样得到声学矢量序列,编码器生成潜矢量序列;得到潜矢量序列后,通过IN算法得到语音的内容信息;将语音内容信息从潜矢量中减去,得说话人的个性特征;解码器对分离后的内容信息表示与说话人个性特征表示进行合成,生成语音;参数更新;判别器用对抗损失表示;将待转换的源语音与目标语音分别作为已经训练好的编码器的输入,编码器提取源语音的内容信息和目标语音的个性特征,再将两者通过已经训练好的解码器进行合成,生成保留源语音的内容信息并具有目标说话人个性特征的语音。
-
公开(公告)号:CN113506583B
公开(公告)日:2024-01-05
申请号:CN202110718049.0
申请日:2021-06-28
Applicant: 杭州电子科技大学
Abstract: 本发明涉及语音识别领域,尤其涉及一种利用残差网络的伪装语音检测方法。包括以下步骤,S1:利用特征提取模块对语音信号x(n)进行处理后得到基于调制频谱的语音特征‑常Q调制包络;S2:将提取出来的常Q调制包络特征以Q调制包络特征图的形式输出,经预处理后输入到改进后的ResNet分类网络中;S3:Q调制包络特征以图片的形式输入到分类网络中后,首先通过1个7×7卷积层和一个3×3池化层,然后通过16个残差单元实现深度特征提取;S4:经过16个残差单元后,通过平均池化层,最终通过全连接层和Softmax层输出语音分类。本发明通过常数Q变换与采用改进残差网络,提高了伪装语音检测的准确性。
-
公开(公告)号:CN113506583A
公开(公告)日:2021-10-15
申请号:CN202110718049.0
申请日:2021-06-28
Applicant: 杭州电子科技大学
Abstract: 本发明涉及语音识别领域,尤其涉及一种利用残差网络的伪装语音检测方法。包括以下步骤,S1:利用特征提取模块对语音信号x(n)进行处理后得到基于调制频谱的语音特征‑常Q调制包络;S2:将提取出来的常Q调制包络特征以Q调制包络特征图的形式输出,经预处理后输入到改进后的ResNet分类网络中;S3:Q调制包络特征以图片的形式输入到分类网络中后,首先通过1个7×7卷积层和一个3×3池化层,然后通过16个残差单元实现深度特征提取;S4:经过16个残差单元后,通过平均池化层,最终通过全连接层和Softmax层输出语音分类。本发明通过常数Q变换与采用改进残差网络,提高了伪装语音检测的准确性。
-
公开(公告)号:CN113436646A
公开(公告)日:2021-09-24
申请号:CN202110648176.8
申请日:2021-06-10
Applicant: 杭州电子科技大学
Abstract: 本发明涉及一种采用联合特征与随机森林的伪装语音检测方法,包括以下步骤:S1、从训练语音库中随机选取真语音和伪语音,分别对随机选取的各语音进行LBP局部纹理特征和CQCC声学特征的提取,并将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量,以得到训练数据集;S2、利用训练数据集对随机森林进行训练,以生成随机森林分类器;S3、将待测语音进行LBP局部纹理特征和CQCC声学特征的提取,并将LBP局部纹理特征和CQCC声学特征联合组成待测联合特征向量,将待测联合特征向量输入随机森林分类器以对待测语音进行真伪检测。本发明对待测语音进行真伪检测,有效提升ASV系统的安全性。
-
公开(公告)号:CN112259086A
公开(公告)日:2021-01-22
申请号:CN202011102941.8
申请日:2020-10-15
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于语谱图合成的语音转换方法,包括:S1.将源语音和目标语音的语谱图分解为内容语谱图和说话人语谱图,并将内容语谱图和说话人语谱图分别输入超深度卷积神经网络中进行处理,分别得到语义内容信息和说话人身份信息;S2.将得到的语义内容信息和说话人身份信息映射到特征空间,分别得到语义内容信息和说话人身份信息的特征矩阵直方图;S3.将得到的语义内容信息和说话人身份信息的特征矩阵直方图输入直方图匹配HdaIN层中进行匹配,得到目标特征矩阵;S4.基于生成框架将得到的目标特征矩阵转换为目标语谱图;S5.将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出。
-
-
-
-
-
-
-
-