-
公开(公告)号:CN119580770A
公开(公告)日:2025-03-07
申请号:CN202411692866.3
申请日:2024-11-25
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种基于声门流特征和声纹特征的伪造语音检测方法及系统,该方法包括:采集训练模型使用的语音信号;使用预训练ECAPA‑TDNN系统提取声纹特征;通过逆滤波方法提取声门流特征;将声门流特征输入预训练的wav2vec提取声门流鲁棒性特征;将声门流鲁棒性特征送入二维卷积网络进行时频域特征关系建模,并与声纹特征拼接,将拼接特征拼接并送入分类层进行语音真伪分类判决;使用训练语音训练基于声门流特征和声纹特征的伪造语音检测系统;采集待测试的目标语音并同样地进行声门流和声纹特征提取,通过二维时频网络并输入分类层,获得最终的伪造语音检测结果。本申请的优势在于:提升了伪造语音检测系统的性能和鲁棒性。
-
公开(公告)号:CN118969013A
公开(公告)日:2024-11-15
申请号:CN202410944150.1
申请日:2024-07-15
Applicant: 中国科学院声学研究所
Abstract: 本发明属于歌声转换领域,涉及一种端到端多尺度风格迁移的歌声转换方法及系统。该方法包括:采集待转换的目标歌声并进行预处理,去除伴奏音;将预处理后的目标歌声和拟采用风格的参考歌声输入预先建立和训练好的歌声转换模型,输出具有参考歌声风格的合成歌声,实现风格迁移;所述歌声转换模型用于从预处理后的目标歌声中提取内容向量和MIDI,从参考歌声中提取全局和局部的风格向量、音高和CQT谱,经端到端处理得到歌声波形。本发明对歌唱进行多尺度风格建模,解决了经典歌声转换中风格相似性差的问题,并且进一步提升了音质,提升了歌声的自然度。
-
公开(公告)号:CN116092516A
公开(公告)日:2023-05-09
申请号:CN202310073162.7
申请日:2023-01-13
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种抑制混叠伪影的方法,所述方法具体包括:将输入生成器的声学特征x0过普通卷积后的特征x1,输入第一层上采样模块;自第一层上采样模块起,对输入第i‑1层上采样模块的特征xi‑1执行步骤:对特征xi‑1上采样ri‑1倍,得到特征将特征过低通滤波器,得到抗混叠特征将声学特征x0上采样倍,得到的特征过普通卷积生成高频特征ni;将生成的高频特征ni和抗混叠特征相加后,过非线性残差模块非线性激活生成xi并输出。还涉及了装置,包括:第一普通卷积模块和至少两层上采样模块。本发明的方法和装置,能够在保持生成高质量语音的同时,避免混叠伪影。
-
公开(公告)号:CN119207441B
公开(公告)日:2025-04-08
申请号:CN202411174387.2
申请日:2024-08-26
Applicant: 中国科学院声学研究所
IPC: G10L21/013 , G10L25/30 , G10L25/63
Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。
-
公开(公告)号:CN113707125B
公开(公告)日:2024-02-27
申请号:CN202111008489.3
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供一种多语言语音合成模型的训练方法及装置,方法包括:基于各样本语言的样本音频的梅尔谱特征标签、样本音素序列、说话人标识标签,分别训练风格编码器、文本编码器以及解码器,以获得可以将音频的音色(通过说话人标识表征)、风格以及文本内容解耦开的风格编码器、文本编码器以及解码器,进而利用样本音频的说话人标识标签及样本音素序列,以及已训练的风格编码器输出的该样本音频的风格向量作为标签,训练风格预测器,以得到多语言语音合成模型。
-
公开(公告)号:CN115985289A
公开(公告)日:2023-04-18
申请号:CN202211582420.6
申请日:2022-12-09
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种端到端语音合成方法,所述方法具体包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型;合成语音波形。还涉及了装置,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块。本发明的方法和装置,提升了合成语音的整体质量、自然性,以及韵律表现力。
-
公开(公告)号:CN113707125A
公开(公告)日:2021-11-26
申请号:CN202111008489.3
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供一种多语言语音合成模型的训练方法及装置,方法包括:基于各样本语言的样本音频的梅尔谱特征标签、样本音素序列、说话人标识标签,分别训练风格编码器、文本编码器以及解码器,以获得可以将音频的音色(通过说话人标识表征)、风格以及文本内容解耦开的风格编码器、文本编码器以及解码器,进而利用样本音频的说话人标识标签及样本音素序列,以及已训练的风格编码器输出的该样本音频的风格向量作为标签,训练风格预测器,以得到多语言语音合成模型。
-
公开(公告)号:CN117475988A
公开(公告)日:2024-01-30
申请号:CN202311393709.8
申请日:2023-10-25
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种段落语音合成建模方法,所述方法包括:构建包括MSAE、MSTE和MSD的段落语音合成模型;以段落语音的线性频谱图和其对应的段落文本对为训练样本,构建训练样本集;以重建线性频谱图为任务,将KL损失的权重设置为不大于0.0001的值,训练MSAE和MSD;继续以重建线性频谱图为任务,逐渐增大KL损失的权重,训练MSAE和MSD;以重建语音波形为任务,继续逐渐增大KL损失的权重直至1,训练段落语音合成模型。还涉及了一种段落语音合成方法。本发明的方法,能够在单次推理中生成自然和富有表现力的高质量段落语音。
-
公开(公告)号:CN111145718B
公开(公告)日:2022-06-07
申请号:CN201911395278.2
申请日:2019-12-30
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法,进行中文句子到变调后发音的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合,其中自注意力机制用来捕捉输入句子中字符的依赖关系,多任务学习引入额外的词性和三个拼音属性作为子任务;并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息;最后发音可以由主任务预测结果得出,也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。
-
公开(公告)号:CN111754976A
公开(公告)日:2020-10-09
申请号:CN202010705955.2
申请日:2020-07-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本申请涉及一种韵律控制语音合成方法、系统和电子装置,其中所述方法包括:对待合成文本进行正则获取语言学特征和音素序列;将所述音素序列输入Tacotron2模型的编码器;将编码结果和所述语言学特征输入韵律参数预测模型,预测待合成文本的韵律参数,获得音素级别的时长和DCT参数化基频;将所述音素级别时长和DCT参数化基频映射为二维向量,与所述编码结果拼接输入Tacotron2的解码器,输出韵律声学特征序列;将所述韵律声学特征序列送入声码器合成语音信号。该方法通过使用DCT参数化的基频和时长,使得Tacotron2模型中能够引入额外的语言学特征来辅助韵律的控制,并且该方法使得模型能够收敛,更加具有解释性。该方法相比其他方法更加鲁棒,对于长句更加稳定。
-
-
-
-
-
-
-
-
-