一种韵律控制语音合成方法、系统及电子装置

    公开(公告)号:CN111754976A

    公开(公告)日:2020-10-09

    申请号:CN202010705955.2

    申请日:2020-07-21

    Abstract: 本申请涉及一种韵律控制语音合成方法、系统和电子装置,其中所述方法包括:对待合成文本进行正则获取语言学特征和音素序列;将所述音素序列输入Tacotron2模型的编码器;将编码结果和所述语言学特征输入韵律参数预测模型,预测待合成文本的韵律参数,获得音素级别的时长和DCT参数化基频;将所述音素级别时长和DCT参数化基频映射为二维向量,与所述编码结果拼接输入Tacotron2的解码器,输出韵律声学特征序列;将所述韵律声学特征序列送入声码器合成语音信号。该方法通过使用DCT参数化的基频和时长,使得Tacotron2模型中能够引入额外的语言学特征来辅助韵律的控制,并且该方法使得模型能够收敛,更加具有解释性。该方法相比其他方法更加鲁棒,对于长句更加稳定。

    一种基于自注意力机制的中文普通话字音转换方法

    公开(公告)号:CN111145718A

    公开(公告)日:2020-05-12

    申请号:CN201911395278.2

    申请日:2019-12-30

    Abstract: 本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法,进行中文句子到变调后发音的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合,其中自注意力机制用来捕捉输入句子中字符的依赖关系,多任务学习引入额外的词性和三个拼音属性作为子任务;并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息;最后发音可以由主任务预测结果得出,也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。

    一种基于教师学生框架的单分类伪造语音检测方法及系统

    公开(公告)号:CN119495321A

    公开(公告)日:2025-02-21

    申请号:CN202411703134.X

    申请日:2024-11-26

    Abstract: 本申请提供了一种基于多尺度编码器图网络的伪造语音检测方法及系统,该方法包括:采集训练模型使用的语音信号;使用Wav2Vec模型提取特征;将特征送入图网络进行时频域特征关系建模,将图网络输出的时频特征拼接送入分类层进行真伪分类判决,得到教师模型;使用训练语音训练教师模型;构建学生模型;在学生模型的Transformer层中插入LoRA适配器模块;使用真实样本训练学生模型,其训练目标为教师模型的真实样本分布;采集待测试的目标语音并输入教师模型和学生模型得到隐层特征,并计算余弦相似度,与先验阈值进行比较获得目标语音伪造语音检测结果。本申请的优势在于:提升了伪造语音检测系统的性能和鲁棒性。

    一种可保留语音情感的说话人隐私保护方法及系统

    公开(公告)号:CN119207441A

    公开(公告)日:2024-12-27

    申请号:CN202411174387.2

    申请日:2024-08-26

    Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。

    一种跨语言端到端情感语音合成方法及系统

    公开(公告)号:CN117789771A

    公开(公告)日:2024-03-29

    申请号:CN202311545240.5

    申请日:2023-11-20

    Abstract: 本发明涉及智能数字信号处理领域,具体涉及一种跨语言端到端情感语音合成方法及系统。采用本方法训练深度神经网络模型,可通过给定待合成A语种文本及带有情感的B语种参考语音,合成自然流畅、情感表达良好的A语种目标说话人语音。具体方法包括:采集语音‑文本成对的原始训练数据,提取语音频域特征,离散编码文本,提取语言无关情感嵌入编码,构建完全端到端情感语音合成模型并进行有监督训练。上述语音合成模型内含情感文本融合编码模块、目标时长预测模块、后验编码模块、音频解码模块和判别模块。语音合成模型训练至收敛后,可通过先验编码模块、时长预测模块和音频解码模块推理出所需要的目标说话人情感语音。

    一种韵律控制语音合成方法、系统及电子装置

    公开(公告)号:CN111754976B

    公开(公告)日:2023-03-07

    申请号:CN202010705955.2

    申请日:2020-07-21

    Abstract: 本申请涉及一种韵律控制语音合成方法、系统和电子装置,其中所述方法包括:对待合成文本进行正则获取语言学特征和音素序列;将所述音素序列输入Tacotron2模型的编码器;将编码结果和所述语言学特征输入韵律参数预测模型,预测待合成文本的韵律参数,获得音素级别的时长和DCT参数化基频;将所述音素级别时长和DCT参数化基频映射为二维向量,与所述编码结果拼接输入Tacotron2的解码器,输出韵律声学特征序列;将所述韵律声学特征序列送入声码器合成语音信号。该方法通过使用DCT参数化的基频和时长,使得Tacotron2模型中能够引入额外的语言学特征来辅助韵律的控制,并且该方法使得模型能够收敛,更加具有解释性。该方法相比其他方法更加鲁棒,对于长句更加稳定。

Patent Agency Ranking