-
公开(公告)号:CN113823260A
公开(公告)日:2021-12-21
申请号:CN202111221947.1
申请日:2021-10-20
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成模型训练方法、语音合成方法和装置,其中方法包括:确定初始合成模型,所述初始合成模型包括时长预测模块,所述时长预测模块用于预测文本中各音素在合成语音中的时长;基于所述初始合成模型,确定样本文本的合成语音,基于所述样本文本的样本语音和所述合成语音之间的差距,对所述时长预测模块的参数进行迭代更新,得到训练完成的语音合成模型。本发明提供的方法和装置,能够通过初始合成模型中的时长预测模块对样本文本中各音素在合成语音中的时长进行预测,避免了时长累计误差的问题,提高了语音合成模型在实际应用中的性能和准确率。
-
公开(公告)号:CN113628610B
公开(公告)日:2024-02-13
申请号:CN202110924333.3
申请日:2021-08-12
Applicant: 科大讯飞股份有限公司
Abstract: 合成语音。本申请提供了一种语音合成方法和装置。首先调用第一编码模型对文本信息进行编码得到文本特征,然后再调用第一解码模型基于所述文本特征进行解码得到语音信息。其中,该第一编码模型和该第一解码模型分别至少包含级联的N层第一编码器和级联的M层第一解码器。对任何1≤i
-
公开(公告)号:CN114267330B
公开(公告)日:2025-05-13
申请号:CN202111659164.1
申请日:2021-12-30
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成的篇章文本的篇章音素序列;对所述篇章音素序列进行编码,得到所述篇章文本的语音学特征;基于所述语音学特征进行语音合成,得到所述篇章文本的合成语音。本发明提供的方法、装置、电子设备和存储介质,通过对篇章文本的篇章音素序列进行编码,从而得到针对篇章文本整体建模的语音学特征,据此进行语音合成,能够保证合成语音在韵律、情感等语感层面的连贯性,提高合成语音的自然度。
-
公开(公告)号:CN118782018A
公开(公告)日:2024-10-15
申请号:CN202310364777.5
申请日:2023-04-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音合成方法、装置、设备及存储介质,具体实现方案为:利用待处理文本的语义信息确定待处理文本的韵律信息;基于所述待处理文本的音素序列和所述韵律信息,确定所述待处理文本的特征向量;其中,所述待处理文本的特征向量包括:所述待处理文本的音素序列和所述韵律信息;利用所述特征向量合成目标语音、根据本申请的技术方案,能够有效提升增强合成语音的表现力。
-
公开(公告)号:CN113823260B
公开(公告)日:2024-10-29
申请号:CN202111221947.1
申请日:2021-10-20
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成模型训练方法、语音合成方法和装置,其中方法包括:确定初始合成模型,所述初始合成模型包括时长预测模块,所述时长预测模块用于预测文本中各音素在合成语音中的时长;基于所述初始合成模型,确定样本文本的合成语音,基于所述样本文本的样本语音和所述合成语音之间的差距,对所述时长预测模块的参数进行迭代更新,得到训练完成的语音合成模型。本发明提供的方法和装置,能够通过初始合成模型中的时长预测模块对样本文本中各音素在合成语音中的时长进行预测,避免了时长累计误差的问题,提高了语音合成模型在实际应用中的性能和准确率。
-
公开(公告)号:CN118351827A
公开(公告)日:2024-07-16
申请号:CN202410125922.9
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10 , G10L13/027 , G06N3/0442 , G06N3/0455 , G06N3/092
Abstract: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,其中,语音合成方法包括:提取待合成篇章文本的篇章韵律特征;其中,待合成篇章文本包含若干句文本;基于篇章韵律特征,切分得到各个句文本的句韵律特征;基于句文本及其句韵律特征,生成得到句文本的声学特征;基于句文本的声学特征,合成得到句文本的第一合成语音;基于各个句文本的第一合成语音,组合得到待合成篇章文本的第二合成语音。上述方案,能够提升合成语音的韵律质量,从而提升合成语音的自然度。
-
公开(公告)号:CN113628630B
公开(公告)日:2023-12-01
申请号:CN202110925487.4
申请日:2021-08-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种信息转换方法和装置。首先,调用第一编码模型对输入信息进行编码得到第一特征,然后调用第一解码模型对第一特征进行解码,得到与输入信息类型不同的输出信息。其中,第一解码模型至少包含与N层第一编码依序一一对应的N层第一解码器,每层第一解码器的输入包含其对应的第一编码,且除第1层外还包含下一层第一解码器的输出编码。每层第一解码器的输出编码用于表征输出信息在其对应粒度下的组成部分的特征,且该粒度小于下一层第一解码器对应的粒度。本方案能够使得信息转换的准确性和稳定性大幅提升。当输入信息和输出信息分别为文本和语音时,以上层次化的编解码过程能够稳定、高效的生成具有高自然度的合成语音。
-
公开(公告)号:CN118782019A
公开(公告)日:2024-10-15
申请号:CN202310364801.5
申请日:2023-04-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了语音合成方法、装置、设备及存储介质,具体实现方案为:获取待处理文本的子句级韵律信息和音素级韵律信息;基于所述待处理文本、所述子句级韵律信息和所述音素级韵律信息确定与所述待处理文本对应的声学特征;基于所述声学特征合成目标语音。根据本申请的技术方案,能够有效提高语音合成的准确性。
-
公开(公告)号:CN114267330A
公开(公告)日:2022-04-01
申请号:CN202111659164.1
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成的篇章文本的篇章音素序列;对所述篇章音素序列进行编码,得到所述篇章文本的语音学特征;基于所述语音学特征进行语音合成,得到所述篇章文本的合成语音。本发明提供的方法、装置、电子设备和存储介质,通过对篇章文本的篇章音素序列进行编码,从而得到针对篇章文本整体建模的语音学特征,据此进行语音合成,能够保证合成语音在韵律、情感等语感层面的连贯性,提高合成语音的自然度。
-
公开(公告)号:CN113628630A
公开(公告)日:2021-11-09
申请号:CN202110925487.4
申请日:2021-08-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种信息转换方法和装置。首先,调用第一编码模型对输入信息进行编码得到第一特征,然后调用第一解码模型对第一特征进行解码,得到与输入信息类型不同的输出信息。其中,第一解码模型至少包含与N层第一编码依序一一对应的N层第一解码器,每层第一解码器的输入包含其对应的第一编码,且除第1层外还包含下一层第一解码器的输出编码。每层第一解码器的输出编码用于表征输出信息在其对应粒度下的组成部分的特征,且该粒度小于下一层第一解码器对应的粒度。本方案能够使得信息转换的准确性和稳定性大幅提升。当输入信息和输出信息分别为文本和语音时,以上层次化的编解码过程能够稳定、高效的生成具有高自然度的合成语音。
-
-
-
-
-
-
-
-
-