一种统一的语音合成与语音转换的训练方法和系统

    公开(公告)号:CN114495898A

    公开(公告)日:2022-05-13

    申请号:CN202210395964.5

    申请日:2022-04-15

    摘要: 本发明提出一种统一的语音合成与语音转换的训练方法和系统。其中,方法包括:将语音合成和语音转换的编码任务解耦成三个子任务,分别为内容信息的提取、说话人信息的提取和韵律信息的提取;所述内容信息是与说话人无关的语言信息;所述说话人信息包括:说话人的特征;所述韵律信息表示说话人如何说出内容信息,反映语音的节奏;将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务,得到还原的语音信息。本发明提出的方案,将语音合成与语音转换模型进行了统一,避免了独立搭建的困难;使用无标注的语音提高语音合成与语音转换的性能。

    语音检测方法及装置、电子设备及存储介质

    公开(公告)号:CN114420100A

    公开(公告)日:2022-04-29

    申请号:CN202210321299.5

    申请日:2022-03-30

    摘要: 本公开涉及一种语音检测方法及装置、电子设备及存储介质,所述方法包括:对待检测语音进行声学特征提取,得到第一声学特征和第二声学特征;将第一声学特征序列输入预先训练好的采样率预测模型,得到采样率信息特征;将第二声学特征和采样率信息特征输入预先训练好的语音检测模型,得到待检测语音为真实语音或合成语音的分类结果,结合采样率信息特征对待检测语音进行检测,能够对实际场景中音频进行音频质量的快速判别,帮助语音检测模型对实际音频的不同频带进行更加有侧重的识别,避免假高频语音对模型判别进行干扰,提高检测模型的分类精确度。

    语音对抗样本生成方法及装置、电子设备及存储介质

    公开(公告)号:CN114267363A

    公开(公告)日:2022-04-01

    申请号:CN202210201797.6

    申请日:2022-03-03

    摘要: 本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。

    编辑音频的方法、装置、电子设备及存储介质

    公开(公告)号:CN113724686B

    公开(公告)日:2022-04-01

    申请号:CN202111292710.2

    申请日:2021-11-03

    摘要: 本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。

    生成语音的检测方法、装置、电子设备及存储介质

    公开(公告)号:CN113808579B

    公开(公告)日:2022-03-08

    申请号:CN202111383856.8

    申请日:2021-11-22

    摘要: 本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果。

    语音拼接点检测方法及存储介质

    公开(公告)号:CN113555007B

    公开(公告)日:2021-12-14

    申请号:CN202111116267.3

    申请日:2021-09-23

    摘要: 本公开涉及一种语音拼接点检测方法及存储介质,上述方法包括:获取待检测语音,并确定所述待检测语音的高频成分和低频成分;根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征;以帧为单位,拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征,得到参数序列;将所述参数序列输入神经网络模型,输出所述待检测语音所对应的特征序列,其中,所述神经网络模型已通过训练,学习并保存有参数序列与所述特征序列之间的对应关系;根据所述特征序列对所述待检测语音进行语音拼接点检测。采用上述技术手段,解决现有技术中,通过单一的声学特征对语音拼接点进行检测,语音拼接点检测的准确率低的问题。

    一种融合组合模型信息的语音鉴别模型压缩方法

    公开(公告)号:CN113362814B

    公开(公告)日:2021-11-09

    申请号:CN202110910114.X

    申请日:2021-08-09

    摘要: 本发明提供一种融合组合模型信息的语音鉴别模型压缩方法,包括:采集目标模型的训练数据;提取所述目标模型的训练数据的声学特征;从目标模型的训练数据中提取样本标签信息,作为硬标签信息;同时采用前向计算方法,得到组合模型的后验概率信息;将组合模型的后验概率信息与硬标签信息进行线性插值,得到组合模型的监督概率信息;利用组合模型的监督概率信息辅助目标模型进行训练,通过最小化目标模型和组合模型的概率分布距离,得到训练后的目标模型。

    基于音素时长特征的虚假语音检测方法及装置

    公开(公告)号:CN113284513B

    公开(公告)日:2021-10-15

    申请号:CN202110841276.2

    申请日:2021-07-26

    摘要: 本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。