语音合成方法及相关装置、设备和存储介质

    公开(公告)号:CN118351827A

    公开(公告)日:2024-07-16

    申请号:CN202410125922.9

    申请日:2024-01-29

    摘要: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,其中,语音合成方法包括:提取待合成篇章文本的篇章韵律特征;其中,待合成篇章文本包含若干句文本;基于篇章韵律特征,切分得到各个句文本的句韵律特征;基于句文本及其句韵律特征,生成得到句文本的声学特征;基于句文本的声学特征,合成得到句文本的第一合成语音;基于各个句文本的第一合成语音,组合得到待合成篇章文本的第二合成语音。上述方案,能够提升合成语音的韵律质量,从而提升合成语音的自然度。

    一种语音识别方法、装置、设备及存储介质

    公开(公告)号:CN113724713B

    公开(公告)日:2024-07-05

    申请号:CN202111042821.8

    申请日:2021-09-07

    发明人: 方昕 刘俊华

    IPC分类号: G10L17/02 G10L17/04

    摘要: 本申请提供了一种语音识别方法、装置、设备及存储介质,其中,方法包括:获取目标混合语音的语音特征以及指定说话人的说话人特征;以趋于目标语音特征为提取方向,根据目标混合语音的语音特征以及目标说话人的说话人特征,从目标混合语音的语音特征中提取目标说话人的语音特征,以得到目标说话人的提取语音特征,其中,目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征;根据指定说话人的提取语音特征,获取指定说话人的语音识别结果。经由本申请提供的语音识别方法可从包含指定说话人语音的混合语音中较为准确的识别出指定说话人的语音内容,用户体验较好。

    一种在线声纹特征更新方法及设备、存储设备和建模设备

    公开(公告)号:CN112735438B

    公开(公告)日:2024-05-31

    申请号:CN202011594594.5

    申请日:2020-12-29

    IPC分类号: G10L17/04 G10L17/18

    摘要: 本申请提供了一种在线声纹特征更新方法,还提供了相应的在线声纹特征更新设备,以及存储设备和建模设备;本申请中的方法中,需要进行声纹特征更新的设备通过在需要测试音频数据时,采用初始化时默认的声纹模型提取器对待测试的测试音频数据进行声纹模型提取,并且进行数据分析后再采用新的声纹模型提取器重新提取分析后的注册音频数据,完成在线更新;通过这种方式,本申请能够使待测试的测试音频可以快速体验新的声纹模型提取器的检索比对效果。

    一种语音合成方法、装置、存储介质及设备

    公开(公告)号:CN118098198A

    公开(公告)日:2024-05-28

    申请号:CN202211449370.4

    申请日:2022-11-18

    摘要: 本申请公开了一种语音合成方法、装置、存储介质及设备,该方法包括:首先获取待合成的目标文本并确定其目标音素,然后将目标文本和目标音素输入至预先构建的语音合成模型,预测得到语音合成结果,其中,语音合成模型是利用文本、音素和语音数据进行跨模态预训练得到。可见,由于本申请是先基于文本、语音和音素三种模态数据构建了语音合成模型,有效提升了模型的数据利用率和鲁棒性,从而在利用该语音合成模型对目标文本进行语音合成时,可以有效提高合成结果的准确率,进而提高了合成效果。

    语音处理方法、装置、设备及存储介质

    公开(公告)号:CN112735392B

    公开(公告)日:2024-04-16

    申请号:CN202011634031.4

    申请日:2020-12-31

    摘要: 本申请实施例公开了一种语音处理方法、装置、设备及存储介质,通过对用于解码文本单元的权重序列进行改进,使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系,由于每一文本单元对应的目标函数关系表示,该文本单元与各个语音帧的时间信息的关联度,与各个语音帧的时间信息间的关联关系,这就使得,利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的,因此,利用各个语音帧的时间信息,以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系,也就是将语音帧的时间信息与文本单元准确对齐,从而提高了将语音识别结果与音频对齐的准确率。

    事件抽取方法、系统以及设备

    公开(公告)号:CN113111649B

    公开(公告)日:2024-02-20

    申请号:CN202110396979.9

    申请日:2021-04-13

    摘要: 本发明公开了一种事件抽取方法,包括:依据至少一个预设的参数类型对待抽取文本进行第一参数抽取,获得第一参数信息;若第一参数信息的数量大于两个,则依据所有第一参数信息获得第一抽取结果,并将第一抽取结果作为事件抽取结果,其中,第一抽取结果包括至少一个参数信息组合;本发明还公开了基于上述方法的系统以及设备。本发明通过独立的参数抽取避免了触发词抽取对参数抽取带来的级联误差,提高了事件抽取的准确性和效率。

    一种说话人聚类方法、装置、设备及存储介质

    公开(公告)号:CN111599346B

    公开(公告)日:2024-02-20

    申请号:CN202010424995.X

    申请日:2020-05-19

    发明人: 褚繁 李晋 方昕

    IPC分类号: G10L15/02 G10L15/06 G06F18/23

    摘要: 本申请提供了一种说话人聚类方法、装置、设备及存储介质,方法包括:获取语音数据集;对于语音数据集中的每条语音数据,以趋于通过该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,得到由获取的说话人特征组成的说话人特征集;根据说话人特征集对语音数据集进行聚类。其中,在根据说话人特征集对语音数据集进行聚类时,可采用不需要预先设定类别数的聚类算法对说话人特征集中的说话人特征进行粗聚类,在粗聚类基础上,进一步根据类内距离和类间距离进行细聚类,从而根据细聚类结果获得语音数据集中语音数据的聚类结果。通过本申请提供的说话人聚类方法能够获得比较准确的聚类结果。

    语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN117524190A

    公开(公告)日:2024-02-06

    申请号:CN202311363058.8

    申请日:2023-10-19

    IPC分类号: G10L13/10 G10L13/04

    摘要: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的目标文本,以及描述合成语音风格的风格文本;提取所述风格文本中的风格特征;基于所述风格特征,合成所述目标文本对应的目标语音。本发明提供的方法、装置、电子设备和存储介质,从风格文本中提取风格特征,并基于风格特征控制目标语音的合成,用户不需要具备语音知识,仅需以自然语言形式描述风格,即可完成个性化、自定义的语音合成,降低了语音合成的使用门槛,扩宽了语音合成的应用场景。并且,通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征,使得语音合成在多维度的约束控制下进行,保障了语音合成的灵活性和可控性。

    翻译方法、装置、电子设备和存储介质

    公开(公告)号:CN117351929A

    公开(公告)日:2024-01-05

    申请号:CN202311384806.0

    申请日:2023-10-23

    摘要: 本发明提供一种翻译方法、装置、电子设备和存储介质,方法包括:获取原始语音;翻译原始语音,得到原始语音的目标文本;基于个性化声音特征,对所述目标文本进行语音合成,得到目标语音,个性化声音特征是从原始语音和/或从与原始语音属于同一说话者的历史语音中提取得到的。本发明提供的方法、装置,基于从原始语音和/或从与原始语音属于同一说话者的历史语音中,提取得到说话者的个性化声音特征,并基于个性化声音特征,对原始语音翻译得到的目标文本进行语音合成,得到目标语音,在实现准确的语义翻译的同时,还保留了说话者的个性化声音特质,实现了“无损”的语音翻译,使得目标语音更加生动和容易听懂,进而提升了用户的使用体验。