融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法

    公开(公告)号:CN116778902A

    公开(公告)日:2023-09-19

    申请号:CN202310970560.9

    申请日:2023-08-02

    Abstract: 本发明公开一种融合增强编码模块和LGNet网络的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解纠缠,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;LGNet网络对提取的内容表征进一步优化;解码器将获取的说话人信息表征和优化后的内容表征进行重构;本发明在编码器中引入增强编码模块,提升了转换语音的质量;利用LGNet网络使得优化后的源语句的内容表征和目标语句的说话人信息表征在解码器中的自适应实例归一化层中充分融合,进一步提高转换语音的自然度和说话人相似度从而实现高质量的跨语种语音转换。

    基于解纠缠和解释性表征的跨语种语音转换方法及系统

    公开(公告)号:CN111785261B

    公开(公告)日:2023-07-21

    申请号:CN202010418684.2

    申请日:2020-05-18

    Inventor: 李燕萍 徐玲俐

    Abstract: 本发明公开了基于解纠缠和解释性表征的跨语种语音转换方法及系统,该方法包括训练阶段和转换阶段,训练阶段包括以下步骤:获取训练语料,训练语料由两种语言的多名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的梅尔频谱特征,得到声学特征向量;将声学特征向量输入到转换网络中进行训练,训练网络包括内容编码器、说话人编码器和解码器;本发明通过学习解纠缠和解释性表征,将说话人语句中的内容信息和说话人个性信息进行解耦,然后将源说话人内容信息与目标说话人个性信息进行重构,实现高质量的跨语种语音转换,还可以转换不在训练集内的说话人的语音,解决了获取目标说话人训练语料困难的问题,扩展了该方法的应用范围。

    基于Perceptual STARGAN的多对多说话人转换方法

    公开(公告)号:CN110600047B

    公开(公告)日:2023-06-20

    申请号:CN201910874686.X

    申请日:2019-09-17

    Abstract: 本发明公开了一种基于Perceptual STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与感知网络相结合来实现语音转换系统,利用感知网络计算感知损失来提升模型对语音频谱的深层语义特征与个性特征的提取能力,能够较好地提升模型对语音频谱的语义以及个性特征的学习能力,从而较好地提升转换后语音的个性相似度和语音质量,克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,降低模型复杂度,实现多说话人对多说话人转换。

    基于动态卷积和窄带Conformer的语音增强方法

    公开(公告)号:CN115762544A

    公开(公告)日:2023-03-07

    申请号:CN202211425722.2

    申请日:2022-11-15

    Inventor: 李燕萍 陆元昕

    Abstract: 本发明涉及语音处理技术领域,具体涉及到一种基于动态卷积和窄带Conformer的语音增强方法,本方法包括训练阶段和测试阶段,能够实现高质量的语音增强。本发明中提出的语音增强模型由生成器和鉴别器组成,首先在生成器中采用窄带Conformer网络提升模型对语音频谱信息的提取能力,进一步利用动态卷积代替传统卷积,极大地减少模型的参数量和计算量,不仅改善降噪效果,而且有效提升算法的运行效率以及模型的稳定性和可靠性。

    基于SN的多对多说话人转换方法

    公开(公告)号:CN110060657B

    公开(公告)日:2023-01-31

    申请号:CN201910268565.0

    申请日:2019-04-04

    Abstract: 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN‑ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN‑ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN‑ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。

    融合DSNet与EDSR网络的非平行多对多语音转换方法

    公开(公告)号:CN113643687A

    公开(公告)日:2021-11-12

    申请号:CN202110772028.7

    申请日:2021-07-08

    Abstract: 本发明公开了一种融合DSNet与EDSR网络的非平行多对多语音转换方法,本方法包括训练阶段和转换阶段,训练过程不需要任何对齐过程,能够实现非平行文本条件下的多对多语音转换。训练阶段包括以下步骤:获取训练语料,训练语料由8名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的声学特征向量,将特征向量输入到转换网络中进行训练,转换网络包括生成器、鉴别器和分类器,生成器融合了DSNet与EDSR网络。本方法利用EDSR网络提升模型对语音频谱信息的提取能力,再通过DSNet网络将提取的频谱信息进行特征融合,从而较好地提升了转换语音的音质和个性相似度,实现高质量的多对多语音转换。

    非平行文本条件下基于文本编码器的多对多语音转换方法

    公开(公告)号:CN109326283B

    公开(公告)日:2021-01-26

    申请号:CN201811406355.5

    申请日:2018-11-23

    Inventor: 李燕萍 石杨 张燕

    Abstract: 本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

    一种非平行语料训练下基于VAE的语音转换方法

    公开(公告)号:CN108777140B

    公开(公告)日:2020-07-28

    申请号:CN201810393556.X

    申请日:2018-04-27

    Inventor: 李燕萍 凌云志

    Abstract: 本发明公开了一种在非平行语料训练条件下基于VAE的语音转换方法,在非平行文本条件下,通过深度神经网络提取瓶颈特征,即Bottleneck特征,然后基于变分自编码模型实现转换函数的学习与建模,在转换阶段,可以实现多说话人对多说话人的转换。本发明的优势有三个方面:1)解除对平行文本的依赖,而且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,实现多对多转换;3)非平行文本条件下的多对多转换系统将为该技术走向实际语音交互提供技术支撑。

    一种语音转换方法
    19.
    发明授权

    公开(公告)号:CN107068165B

    公开(公告)日:2020-07-24

    申请号:CN201611267431.X

    申请日:2016-12-31

    Abstract: 本发明公开了一种语音转换方法,该系统首先通过对平行语料库进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,然后使用该转换函数进行高质量的语音转换。本发明针对语音特征参数空间分布状况与高斯混合模型的相关关系,使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,构建了一种高质量语音转换系统,在语音转换领域具有实用价值。

    训练数据有限情形下的非平行文本语音转换方法

    公开(公告)号:CN109671423A

    公开(公告)日:2019-04-23

    申请号:CN201810418346.1

    申请日:2018-05-03

    Inventor: 李燕萍 许吉良

    Abstract: 本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。

Patent Agency Ranking