-
公开(公告)号:CN109671423A
公开(公告)日:2019-04-23
申请号:CN201810418346.1
申请日:2018-05-03
Applicant: 南京邮电大学
Abstract: 本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。
-
公开(公告)号:CN109584893A
公开(公告)日:2019-04-05
申请号:CN201811597896.0
申请日:2018-12-26
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/21 , G10L25/30 , G10L13/02
Abstract: 本发明提供一种非平行文本条件下基于VAE与身份特征向量(i-vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i-vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i-vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
-
公开(公告)号:CN110047501B
公开(公告)日:2021-09-07
申请号:CN201910268592.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L21/013
Abstract: 本发明公开了一种基于beta‑VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。
-
公开(公告)号:CN109671423B
公开(公告)日:2023-06-02
申请号:CN201810418346.1
申请日:2018-05-03
Applicant: 南京邮电大学
Abstract: 本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。
-
公开(公告)号:CN109584893B
公开(公告)日:2021-09-14
申请号:CN201811597896.0
申请日:2018-12-26
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/21 , G10L25/30 , G10L13/02
Abstract: 本发明提供一种非平行文本条件下基于VAE与身份特征向量(i‑vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i‑vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i‑vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
-
公开(公告)号:CN110085254A
公开(公告)日:2019-08-02
申请号:CN201910323677.1
申请日:2019-04-22
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L21/003 , G10L21/007 , G10L25/30
Abstract: 本发明公开了一种基于beta-VAE和i-vector的多对多语音转换方法,通过引入可调节参数β和C对变分自动编码器(VAE)框架进行了修改,并将i-vector(身份特征向量)与改进后的VAE网络结合起来,提高隐变量解纠缠能力,改善其在瓶颈层编码能力的不足,并充分丰富了说话人的个性化特征,能够较好地提升转换后语音的个性相似度和语音质量,有效的提高现有VAE网络的语音转换性能。
-
公开(公告)号:CN110047501A
公开(公告)日:2019-07-23
申请号:CN201910268592.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L21/013
Abstract: 本发明公开了一种基于beta-VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。
-
-
-
-
-
-