-
公开(公告)号:CN113808570A
公开(公告)日:2021-12-17
申请号:CN202111056323.9
申请日:2021-09-09
Applicant: 南京邮电大学
Abstract: 本发明公开了基于激活指导和内卷积的跨语种语音转换方法,包括训练阶段和转换阶段。本发明中提出的语音转换模型由编码器和解码器组成,首先在编解码器中采用内卷积代替传统卷积,极大地减少模型的参数量和计算量,有效地提升算法的运行效率;进一步利用编码器中的激活指导提取源说话人语句中的内容信息,同时采用U型连接将目标说话人的个性信息从编码器传递到解码器,并在解码器中与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种转换。
-
公开(公告)号:CN110047501B
公开(公告)日:2021-09-07
申请号:CN201910268592.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L21/013
Abstract: 本发明公开了一种基于beta‑VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。
-
公开(公告)号:CN107103914B
公开(公告)日:2020-06-16
申请号:CN201710166971.7
申请日:2017-03-20
Applicant: 南京邮电大学
Abstract: 本发明公开了一种高质量的语音转换方法,该系统首先通过自组织聚类算法代替传统GMM模型中的K‑Means算法,并与EM算法迭代循环实现了说话人个性特征参数(MFCC)的训练及分类,接着进行双线性频率弯折加幅度压扩的训练,得到语音转换所需的转换函数,然后使用该转换函数进行高质量的语音转换。本发明针对语音特征参数空间分布状况与高斯混合模型的相关关系,使用迭代自组织聚类算法实现混合度的确定,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将改进的高斯混合模型和双线性频率弯折加幅度压扩相结合,构建了一种高质量语音转换系统,在语音转换领域具有实用价值。
-
公开(公告)号:CN107039036B
公开(公告)日:2020-06-16
申请号:CN201710088300.3
申请日:2017-02-17
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于自动编码深度置信网络的高质量说话人识别方法,包括模型训练和说话人识别:首先对说话人语音进行预处理,提取MFCC特征参数,为不同说话人特征参数进行标记。将多名说话人特征参数输入深度置信网络进行网络训练学习,得到自动编码深度置信网络。利用训练好的自动编码深度置信网络分别对每个说话人提取的特征参数进行编码重构,输出数据作为矢量量化模型的输入,进行矢量量化模型训练。说话人识别阶段,说话人的语音特征参数经自动编码深度置信网络编码重构,输入矢量量化模型进行识别。通过深度置信网络对说话人语音特征的编码重构,提取说话人个性特征的同时,可以过滤语音中的噪声,提高了说话人识别准确性和系统鲁棒性。
-
公开(公告)号:CN107301859B
公开(公告)日:2020-02-21
申请号:CN201710474281.8
申请日:2017-06-21
Applicant: 南京邮电大学
IPC: G10L15/02 , G10L15/06 , G10L15/07 , G10L15/14 , G10L17/02 , G10L21/007 , G10L25/51 , G10L19/032
Abstract: 本发明公开了一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,属于语音信号处理技术领域。首先利用基于单元挑选和声道长度归一化相结合的方法对非平行语料进行语音特征参数对齐,然后进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,最后使用该转换函数实现高质量的语音转换。本发明不仅克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,适用性和通用性更强,而且使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,在转换的个性相似度和语音质量上更好。
-
公开(公告)号:CN110136686A
公开(公告)日:2019-08-16
申请号:CN201910397833.9
申请日:2019-05-14
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于STARGAN与i向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用循环对抗网络,通过降低循环对抗损失较好地提升转换后语音的个性相似度和语音质量,用STARGAN与i向量相结合来实现语音转换系统,较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语i向量具有更好的表征性能,语音转换质量更好,同时可以克服C-VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。
-
公开(公告)号:CN110134956A
公开(公告)日:2019-08-16
申请号:CN201910397611.7
申请日:2019-05-14
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于BLSTM-CRF的地名组织名识别方法,包括训练阶段和识别阶段,使用BLSTM-CRF模型,通过BLSTM能够较好地学习上下文的信息,通过CRF特有的转移特征能够考虑到输出label之间的顺序性,特别是用词特征与字特征结合作为输入特征,通过加入词特征能够更好地进行命名体的分界,提高命名体识别的精确度和召回率。此外,本方法运用基于地理位置的分词工具,分词更加精准。
-
公开(公告)号:CN110060701A
公开(公告)日:2019-07-26
申请号:CN201910268596.6
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L25/30 , G10L21/007 , G10L13/02
Abstract: 本发明公开了一种基于VAWGAN-AC的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与辅助分类生成对抗网络(ACGAN)相结合的方式来实现语音转换系统,通过在VAWGAN的鉴别器中添加辅助分类信息来增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器与鉴别器的损失函数中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。
-
公开(公告)号:CN110060657A
公开(公告)日:2019-07-26
申请号:CN201910268565.0
申请日:2019-04-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN-ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN-ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN-ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。
-
-
-
-
-
-
-
-