-
公开(公告)号:CN119296582A
公开(公告)日:2025-01-10
申请号:CN202411391986.X
申请日:2024-10-08
Applicant: 南京邮电大学
IPC: G10L25/51 , G10L25/69 , G10L25/30 , G10L25/03 , G06F18/24 , G06F18/213 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于注意力和双特征的深度伪造音频检测方法,包括训练阶段和测试阶段,在训练阶段获取训练数据并进行预处理,构建双特征深度伪造音频检测模型,将训练数据的手工声学特征和原始波形特征输入到各自检测支路中进行模型训练;分别在两个模型的特征提取模块中加入注意力块,该注意力块由空间局部注意力和频谱全局注意力组成,空间局部注意力用于聚焦特征的局部敏感区域,频谱全局注意力用于捕获特征之间的跨通道相关性,即捕获特征的长程依赖关系,然后将其拼接融合输出,输入至分类模块中进行真伪分类;最后在测试阶段训练好的检测模型,完成对真实语音和合成语音的真伪检测,实现高质量的深度伪造音频检测。
-
公开(公告)号:CN118298839A
公开(公告)日:2024-07-05
申请号:CN202410332076.8
申请日:2024-03-22
Applicant: 南京邮电大学
IPC: G10L21/02 , G06N3/0464 , G06N3/045 , G06N3/0985 , G06N3/0442 , G06N3/048 , G06N3/0895 , G10L21/0216 , G10L25/30 , G10L25/48
Abstract: 本发明公开了一种基于全局掩码的自监督语音增强方法,包括训练阶段和测试阶段,构建的语音增强模型,包括特征提取模块、语音增强模块和全局掩码映射器,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在WavLM模型中提出全局掩码,从而实现全局感知,补充语音重建所需要的信息,然后将提取到的声学特征传递到BLSTM模型中进行增强,最后提出全局掩码映射器,对所有被掩码的位置进行采样,并将所有盲点分配到同一层,从而允许损失函数一次性优化所有盲点,加速训练,得到全局去噪后的增强语音。本发明方法能够有效提高语音增强的性能,改善降噪效果,获得更高的语音感知质量和可懂度,实现高质量的语音增强。
-
公开(公告)号:CN115881088A
公开(公告)日:2023-03-31
申请号:CN202211423682.8
申请日:2022-11-15
Applicant: 南京邮电大学
IPC: G10L13/033 , G10L13/02 , G10L15/02 , G10L15/06 , G10L25/03
Abstract: 本发明属于语音转换技术领域,具体地说,是一种基于CBAM和动态卷积分解的歌唱语音转换方法,包括训练阶段和转换阶段,模型网络包括生成器、鉴别器和风格编码器。首先在生成器中引入动态卷积分解,通过动态通道融合来代替通道组的动态关注,解决生成器中动态卷积会导致卷积权重的数量增加K倍的问题,减轻了联合优化的难度,并且使得模型在不牺牲精度的情况下,需要的参数更少,提高算法的运行性能。进一步在生成器的编码网络和解码网络引入CBAM注意力模块,在通道和空间施加注意力,提升对频谱中细节信息的关注与捕获,显著改善转换歌唱语音的质量。
-
公开(公告)号:CN110060690B
公开(公告)日:2023-03-24
申请号:CN201910268602.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L17/02 , G10L17/04 , G10L17/14 , G10L17/18 , G10L17/22 , G10L25/18 , G06F40/30 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN109377978B
公开(公告)日:2021-01-26
申请号:CN201811337338.0
申请日:2018-11-12
Applicant: 南京邮电大学
IPC: G10L13/08 , G10L19/02 , G10L21/007 , G10L13/02 , G10L25/30
Abstract: 本发明公开了一种非平行文本条件下基于i向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了VAWGAN与i向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。此外,本方法解除对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,本方法还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN110600047A
公开(公告)日:2019-12-20
申请号:CN201910874686.X
申请日:2019-09-17
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于Perceptual STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与感知网络相结合来实现语音转换系统,利用感知网络计算感知损失来提升模型对语音频谱的深层语义特征与个性特征的提取能力,能够较好地提升模型对语音频谱的语义以及个性特征的学习能力,从而较好地提升转换后语音的个性相似度和语音质量,克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,降低模型复杂度,实现多说话人对多说话人转换。
-
公开(公告)号:CN110060691A
公开(公告)日:2019-07-26
申请号:CN201910304431.X
申请日:2019-04-16
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法,包括训练阶段和转换阶段,使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易,并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度,另外加入了能够充分表征说话人的个性特征的i向量,充分学习语义特征和说话人的个性化特征,从而更好地提升转换后语音的个性相似度和语音质量。
-
公开(公告)号:CN109599091A
公开(公告)日:2019-04-09
申请号:CN201910030577.X
申请日:2019-01-14
Applicant: 南京邮电大学
CPC classification number: G10L13/02 , G06N3/0454 , G06N3/08 , G10L15/063 , G10L15/16 , G10L25/24 , G10L25/30
Abstract: 本发明公开了一种基于STARWGAN-GP和x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARWGAN-GP与x向量相结合来实现语音转换系统。本方法加入了表征性能和实用性能更好的X-vector向量来表征说话人的个性化特征,并且使用WGAN-GP来替换GAN,从而解决GAN训练不稳定、梯度消失等问题,构建训练更加稳定、收敛速度更快的网络,进一步提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。本方法不仅能够解除对平行文本的依赖,实现非平行文本条件下的语音转换,还可以进一步将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN109584893A
公开(公告)日:2019-04-05
申请号:CN201811597896.0
申请日:2018-12-26
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/21 , G10L25/30 , G10L13/02
Abstract: 本发明提供一种非平行文本条件下基于VAE与身份特征向量(i-vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i-vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i-vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
-
公开(公告)号:CN107545903A
公开(公告)日:2018-01-05
申请号:CN201710589792.4
申请日:2017-07-19
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于深度学习的语音转换方法,属于语音信号处理技术领域。本发明使用声音编解码器AHOcoder作为特征提取端和语音合成端,使用一种深度学习的方法对语音特征进行训练分别得到源说话人和目标说话人的深层特征,同时得到由深层特征重构原始特征的解码能力,使用BP神经网络实现源说话人和目标说话人深层特征的映射,从而实现语音转换。本发明优点在于对语音的原始特征进行了拼接,认为拼接后的联合特征参数包含有说话人语音特性的动态特征,通过预训练深度自编码器加速了深度神经网络的训练,且通过深层特征的转换使得在使用少量语料进行训练的情况下得到了品质较好的转换后的语音,并且本发明支持离线学习,节约了终端设备的计算资源和内存。
-
-
-
-
-
-
-
-
-