-
公开(公告)号:CN113380235B
公开(公告)日:2021-11-16
申请号:CN202110931452.1
申请日:2021-08-13
申请人: 中国科学院自动化研究所
摘要: 本发明提供一种基于知识迁移的电话信道虚假语音鉴别方法,包括:将利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型,将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型;在所述电话信道模型训练过程中,应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为,即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布;应用训练后的电话信道模型对电话信道语音进行预测,得到电话信道语音的真假判别结果。
-
公开(公告)号:CN113555007A
公开(公告)日:2021-10-26
申请号:CN202111116267.3
申请日:2021-09-23
申请人: 中国科学院自动化研究所
摘要: 本公开涉及一种语音拼接点检测方法及存储介质,上述方法包括:获取待检测语音,并确定所述待检测语音的高频成分和低频成分;根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征;以帧为单位,拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征,得到参数序列;将所述参数序列输入神经网络模型,输出所述待检测语音所对应的特征序列,其中,所述神经网络模型已通过训练,学习并保存有参数序列与所述特征序列之间的对应关系;根据所述特征序列对所述待检测语音进行语音拼接点检测。采用上述技术手段,解决现有技术中,通过单一的声学特征对语音拼接点进行检测,语音拼接点检测的准确率低的问题。
-
公开(公告)号:CN109346056B
公开(公告)日:2021-06-11
申请号:CN201811102108.6
申请日:2018-09-20
申请人: 中国科学院自动化研究所
摘要: 本发明涉及语音合成技术领域,具体涉及一种基于深度度量网络的语音合成方法及装置,旨在解决如何得到更为精确的目标代价以及品质更高的合成语音的技术问题。该方法包括将待测文本信息拆分为多个文本基元,提取文本基元的文本特征;从语料库中获取对应的多个候选基元,并提取每个候选基元对应的文本特征和声学特征;对文本基元的文本特征进行编码得到第一特征向量,对候选基元的文本特征和声学特征进行编码得到第二特征向量;计算文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,获取目标代价;利用语音合成系统根据目标代价对候选基元进行拼接合成语音。上述方法可以提升合成语音的品质。
-
公开(公告)号:CN113284486B
公开(公告)日:2021-11-16
申请号:CN202110841144.X
申请日:2021-07-26
申请人: 中国科学院自动化研究所
摘要: 本发明提供一种环境对抗的鲁棒语音鉴别方法,包括:采集语音鉴别模型训练数据;提取所述训练数据中每个语音句子的训练声学特征;将所述训练声学特征输入语音鉴别模型,所述语音鉴别模型包括:语音真假判别器和环境对抗判别器,联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数;得到训练后的语音鉴别模型;采集语音鉴别模型预测数据;提取所述预测数据中每个语音句子的预测声学特征;将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型,输出语音的判别结果。
-
公开(公告)号:CN114495898B
公开(公告)日:2022-07-01
申请号:CN202210395964.5
申请日:2022-04-15
申请人: 中国科学院自动化研究所
IPC分类号: G10L13/02 , G10L13/027 , G10L13/08
摘要: 本发明提出一种统一的语音合成与语音转换的训练方法和系统。其中,方法包括:将语音合成和语音转换的编码任务解耦成三个子任务,分别为内容信息的提取、说话人信息的提取和韵律信息的提取;所述内容信息是与说话人无关的语言信息;所述说话人信息包括:说话人的特征;所述韵律信息表示说话人如何说出内容信息,反映语音的节奏;将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务,得到还原的语音信息。本发明提出的方案,将语音合成与语音转换模型进行了统一,避免了独立搭建的困难;使用无标注的语音提高语音合成与语音转换的性能。
-
公开(公告)号:CN114267363B
公开(公告)日:2022-05-24
申请号:CN202210201797.6
申请日:2022-03-03
申请人: 中国科学院自动化研究所
摘要: 本公开涉及一种语音对抗样本生成方法及装置、电子设备及存储介质,所述方法包括:接收目标文本,并从所述目标文本中提取文本特征序列;将所述文本特征序列输入预先训练好的声学模型,得到多维声学参数序列;将所述多维声学参数序列输入预先训练好的声码器模型,生成语音的时域采样序列,作为目标文本对应的对抗样本,声学模型的输出为多维声学参数序列,使得生成的语音内容在多种声学特征维度描述下保证高相似度(匹配度),因而,在语音对抗样本的生成过程中利用多维声学参数重构方法,能够提升语音对抗样本的抗检测能力,更加有效对语音生成检测模型进行欺骗。
-
公开(公告)号:CN114093342B
公开(公告)日:2022-05-03
申请号:CN202210078586.8
申请日:2022-01-24
申请人: 中国科学院自动化研究所
摘要: 本发明提供细粒度韵律建模的语音生成模型、设备及存储介质,其中,模型包括:文本信息输入文本编码器模块,得到文本的编码特征;频谱信息输入韵律编码模块,得到音素级别的语音的韵律特征;语音的韵律特征输入解耦合模块,将语音的韵律特征中包含的文本内容信息和韵律信息解耦合,并只留下语音的韵律特征的韵律信息;文本的编码特征和语音的韵律特征的韵律信息输入解码器,生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分,韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势,同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。
-
公开(公告)号:CN113808579A
公开(公告)日:2021-12-17
申请号:CN202111383856.8
申请日:2021-11-22
申请人: 中国科学院自动化研究所
摘要: 本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果。
-
公开(公告)号:CN113555037A
公开(公告)日:2021-10-26
申请号:CN202111103012.3
申请日:2021-09-18
申请人: 中国科学院自动化研究所
摘要: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。
-
公开(公告)号:CN115798453A
公开(公告)日:2023-03-14
申请号:CN202111059801.1
申请日:2021-09-10
申请人: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC分类号: G10L13/027 , G10L15/02 , G10L15/06 , G10L15/20
摘要: 本申请涉及一种语音重建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对原始语音进行特征提取,得到对应的声学特征;将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。采用本方法能够控制语音重建中所生成的噪声的分量,有效提高重建的语音的质量。
-
-
-
-
-
-
-
-
-