-
公开(公告)号:CN110060701A
公开(公告)日:2019-07-26
申请号:CN201910268596.6
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L25/30 , G10L21/007 , G10L13/02
Abstract: 本发明公开了一种基于VAWGAN-AC的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与辅助分类生成对抗网络(ACGAN)相结合的方式来实现语音转换系统,通过在VAWGAN的鉴别器中添加辅助分类信息来增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器与鉴别器的损失函数中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。
-
公开(公告)号:CN110060701B
公开(公告)日:2023-01-31
申请号:CN201910268596.6
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L25/30 , G10L21/007 , G10L13/02
Abstract: 本发明公开了一种基于VAWGAN‑AC的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与辅助分类生成对抗网络(ACGAN)相结合的方式来实现语音转换系统,通过在VAWGAN的鉴别器中添加辅助分类信息来增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器与鉴别器的损失函数中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。
-
公开(公告)号:CN109326283B
公开(公告)日:2021-01-26
申请号:CN201811406355.5
申请日:2018-11-23
Applicant: 南京邮电大学
Abstract: 本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。
-
公开(公告)号:CN109326283A
公开(公告)日:2019-02-12
申请号:CN201811406355.5
申请日:2018-11-23
Applicant: 南京邮电大学
CPC classification number: G10L15/063 , G10L13/02 , G10L15/06 , G10L17/04 , G10L21/003 , G10L25/18 , G10L25/30
Abstract: 本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text-Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。
-
-
-