-
公开(公告)号:CN114283782B
公开(公告)日:2025-05-02
申请号:CN202111665515.X
申请日:2021-12-31
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法及装置、电子设备和存储介质,其中,语音合成方法包括:提取待合成文本的发音属性特征,且基于待合成文本分别在若干种语音属性上的目标类别,获取各种语音属性的目标属性特征;再基于发音属性特征和各目标属性特征,合成得到待合成文本的合成语音。上述方案,能够在提升语音合成自由度的同时,降低其成本。
-
公开(公告)号:CN119864008A
公开(公告)日:2025-04-22
申请号:CN202411936289.8
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/06 , G10L13/08 , G10L25/27 , G06N3/0455
Abstract: 本发明提供一种语音合成方法及装置,所述方法包括:基于编码器中的当前自注意力模块,对上一自注意力模块输出的上一文本特征进行关键信息提取,确定当前文本特征;基于解码器中与当前自注意力模块层级对应的当前交叉注意力模块,对上一交叉注意力模块输出的上一语音特征与当前文本特征进行特征对齐,得到当前语音特征;基于解码器中末个交叉注意力模块输出的语音特征,对待合成文本进行语音合成,得到合成语音。本发明减少了语音合成中语义信息和声学信息的耦合,提高了语义信息和声学信息对齐稳定性,减少了交叉注意力带来的对齐不稳定,进而提高了语音合成效果。
-
公开(公告)号:CN119763590A
公开(公告)日:2025-04-04
申请号:CN202510003289.0
申请日:2025-01-02
Applicant: 科大讯飞股份有限公司
IPC: G10L21/013 , G10L15/06 , G10L15/02
Abstract: 本发明提供一种声音转换模型训练方法、声音转换方法及装置,涉及数据处理技术领域,包括:获取多个不同发声人的发声人音频样本;其中,每个发声人音频样本对应一个基频标签;根据各个发声人音频样本对应的自动语音识别样本特征和发声人样本特征向量,对预设声音转换模型进行训练,得到第一声音转换模型;基于目标发声人的各个发声人音频伪造样本对应的伪造自动语音识别特征和发声人样本特征向量,对第一声音转换模型进行训练,得到第二声音转换模型;其中,发声人音频伪造样本是根据目标发声人真实的发声人音频样本得到的;第二声音转换模型用于基于发声人音频对应的自动语音识别特征和发声人特征向量,输出发声人音频对应的基频信息。
-
公开(公告)号:CN119763546A
公开(公告)日:2025-04-04
申请号:CN202411951237.8
申请日:2024-12-27
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08 , G10L13/027 , G10L13/04
Abstract: 本发明提供一种语音合成方法、系统、电子设备及存储介质,其中方法包括:将待合成的目标文本输入至语音合成模型中的文本处理模块,得到所述文本处理模块输出的语音特征;将所述目标文本中的情感信息输入至所述语音合成模型中的情感编码器,得到所述情感编码器输出的情感特征;将所述语音特征和所述情感特征输入至所述语音合成模型中的声学模型,得到所述声学模型中的多个专家模块组合输出的声学特征;将所述声学特征输入至所述语音合成模型中的声码器,得到所述声码器输出的所述目标文本对应的合成语音。本发明实现富有情感且拟人化程度高的语音合成,提升了超拟人多情感的语音合成中的情感效果和语音合成质量。
-
公开(公告)号:CN119763545A
公开(公告)日:2025-04-04
申请号:CN202411906533.6
申请日:2024-12-23
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08 , G10L13/027 , G10L25/63 , G10L13/04
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,涉及语音技术领域,其中方法包括:将获取的待合成文本和情感属性输入语音合成模型中,得到语音合成模型输出的目标语音;其中,语音合成模型为基于第一样本语音对应的第一样本文本和第一样本语音对应的第一样本情感特征训练得到的,第一样本情感特征为将第一样本语音输入情感编码模型后得到的,情感编码模型为基于目标编码和第二样本情感特征的最小互信息损失训练得到的。本发明能够基于最小互信息损失训练得到情感编码模型,以使情感编码模型输出的情感特征中不包括音色和文本内容等不相关信息,使得语音合成模型能够实现对细粒度情感的控制,提高了语音合成的控制力。
-
公开(公告)号:CN112802462B
公开(公告)日:2024-05-31
申请号:CN202011627564.X
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声音转换模型的训练方法、电子设备及存储介质。该方法包括:从第一语音数据集中获取第一训练语音数据,其中,第一语音数据集中包括目标说话人的多条语音数据,第一训练语音数据对应第一声学特征;获取第一声学特征对应的后验概率特征;将第一声学特征对应的后验概率特征和第一辅助音色特征输入声音转换模型,得到第一平行特征;获取第一平行特征对应的后验概率特征;将第一平行特征对应的后验概率特征和目标音色特征输入声音转换模型,得到第二声学特征;基于第二声学特征和第一声学特征之间的差异,调整声音转换模型的参数。通过上述方式,能够提高声音转换模型的转换效果。
-
公开(公告)号:CN112767957B
公开(公告)日:2024-05-31
申请号:CN202011627633.7
申请日:2020-12-31
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种获得预测模型的方法、语音波形的预测方法、电子设备和计算机可读存储介质,所述获得预测模型的方法首先将样本语音波形划分为若干个样本子序列,并进行时延处理,然后构建初始预测模型,并依据若干个样本子序列和样本语音波形的声学参数训练初始预测模型,获得预测模型。其中,将若干个样本子序列中当前波形点的波形值同时输入上述预测模型,能够同时获得若干个样本子序列中下一波形点的预测波形值。因此,本申请能够减少预测生成语音波形的计算量,提高生成语音波形的效率,从而能够实现实时生成语音波形的目的,且实时生成语音波形时不容易发生卡顿。
-
公开(公告)号:CN118093864A
公开(公告)日:2024-05-28
申请号:CN202311870832.4
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种文本分析方法及相关方法、装置、设备和存储介质,其中,文本分析方法包括:基于待分析文本进行对话检测,得到标记待分析文本中对话文本之后的目标文本,并构造角色分析指令;将角色分析指令输入至大语言模型进行处理,得到目标文本涉及的若干角色及其角色属性;至少基于若干角色,构造对话分析指令;将对话分析指令输入至大语言模型进行处理,得到目标文本中对话文本归属的目标角色和蕴含的情感类别;其中,目标角色为若干角色中任一者。上述方案,能够提升文本分析的准确性,并扩展文本分析的适用范围。
-
公开(公告)号:CN118057522A
公开(公告)日:2024-05-21
申请号:CN202211448746.X
申请日:2022-11-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语音合成方法、模型训练方法、装置、设备及存储介质,该语音合成方法包括:通过预先训练的编码模型,提取待合成文本的语义特征;至少基于所述待合成文本和所述语义特征,生成与待合成文本相匹配的语音;其中,所述编码模型通过对第一训练样本进行语义特征提取训练得到,第一训练样本包括第一文本样本以及与第一文本样本平行的第一语音样本的声学特征;所述语义特征提取训练,以使得编码模型能够正确提取第一文本样本的文本特征和/或第一语音样本的声学特征,以及,能够正确预测所述第一语音样本的韵律信息,为目标。该方法能够合成可懂度和自然度更高的语音。
-
公开(公告)号:CN117351937A
公开(公告)日:2024-01-05
申请号:CN202311382110.4
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:对目标语音进行特征提取,得到目标语音特征,目标语音特征中目标粗粒度语音特征和目标细粒度语音特征表征信息不同;基于目标语音、待合成文本以及目标语音特征,确定待合成语音特征,待合成语音特征包括待合成粗粒度语音特征和待合成细粒度语音特征;基于待合成语音特征,确定待合成文本对应的合成语音,通过粗细粒度两个层面上蕴含了丰富的发音和音色的待合成语音特征进行语音合成,能够有效提升语音合成的效果,克服了目前合成语音在音色和发音习惯上存在欠缺,语音合成效果不佳的缺陷,优化了合成语音在音色和发音习惯上的逼真度,保证了合成语音的真实自然。
-
-
-
-
-
-
-
-
-