角色音频匹配方法、装置、电子设备及存储介质

    公开(公告)号:CN119763584A

    公开(公告)日:2025-04-04

    申请号:CN202411954984.7

    申请日:2024-12-27

    Abstract: 本发明提供一种角色音频匹配方法、装置、电子设备及存储介质,涉及数据处理技术领域,包括:获取待处理视听作品的视听作品数据,并根据所述视听作品数据中所述待处理视听作品各个角色的目标角色音频信息,获取各个角色的第一声纹表征;对所述视听作品数据进行单角色音频提取,得到多个单角色音频信息;基于各所述单角色音频信息对应的第二声纹表征,对多个所述单角色音频信息进行音频聚类,得到至少一个单角色音频信息集合;基于各个所述角色的目标角色音频信息与各个所述单角色音频信息集合的声纹表征相似性信息,确定每个所述角色匹配的单角色音频信息集合;其中,所述声纹表征相似性信息是根据所述第一声纹表征和所述第二声纹表征确定的。

    合成语音的调整方法、训练方法及相关装置

    公开(公告)号:CN117935770A

    公开(公告)日:2024-04-26

    申请号:CN202410029165.5

    申请日:2024-01-08

    Abstract: 本申请公开了一种合成语音的调整方法、训练方法及相关装置。该方法包括:获取初始合成语音的属性调整文本,以及,获取目标说话人的原属性特征,其中,属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异,初始合成语音是利用原属性特征和声学特征进行语音合成得到的;利用属性调整文本和原属性特征进行属性预测,得到新属性特征;基于新属性特征和声学特征进行语音合成,得到调整后的合成语音。上述方案,能够实现对语音属性的调整,满足用户对于合成语音的个性化需求。

    虚拟声音合成方法、装置及相关设备

    公开(公告)号:CN116469369A

    公开(公告)日:2023-07-21

    申请号:CN202211392185.6

    申请日:2022-11-08

    Abstract: 本申请公开了一种虚拟声音合成方法、装置及相关设备,本申请预先采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,得到映射后的平滑连续的隐层空间作为音色特征空间,目标生成模型可以将任意复杂概率分布模型经过逆变换,映射到一个平滑连续的分布空间,也即本申请得到的音色特征空间是一个平滑连续的空间,在这个空间中采样获得的虚拟音色特征向量是连续的,基于待合成文本的文本特征向量及采样的虚拟音色特征向量进行虚拟声音合成。相比于现有的不连续的说话人编码向量,本申请基于平滑连续的音色特征空间采样得到的虚拟音色特征向量进行虚拟音合成时,所得到的合成语音的质量更好,鲁棒性更高。

    声音转换模型的训练方法、电子设备及存储介质

    公开(公告)号:CN112802462A

    公开(公告)日:2021-05-14

    申请号:CN202011627564.X

    申请日:2020-12-31

    Abstract: 本申请公开了一种声音转换模型的训练方法、电子设备及存储介质。该方法包括:从第一语音数据集中获取第一训练语音数据,其中,第一语音数据集中包括目标说话人的多条语音数据,第一训练语音数据对应第一声学特征;获取第一声学特征对应的后验概率特征;将第一声学特征对应的后验概率特征和第一辅助音色特征输入声音转换模型,得到第一平行特征;获取第一平行特征对应的后验概率特征;将第一平行特征对应的后验概率特征和目标音色特征输入声音转换模型,得到第二声学特征;基于第二声学特征和第一声学特征之间的差异,调整声音转换模型的参数。通过上述方式,能够提高声音转换模型的转换效果。

    一种声学模型构建方法及装置、电子设备

    公开(公告)号:CN109326278A

    公开(公告)日:2019-02-12

    申请号:CN201710640216.8

    申请日:2017-07-31

    Abstract: 本发明公开了一种声学模型构建方法及装置、电子设备,所述方法包括如下步骤:步骤一,收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型;步骤二,利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量;步骤三,利用构建得到的残差向量对初始深度学习模型进行更新,得到更新后的深度学习模型,本发明使声学模型构建时,其输入特征与输出特征包含的信息更匹配,有效提高了建模的精度。

    合成语音处理方法及相关装置

    公开(公告)号:CN113066476B

    公开(公告)日:2024-05-31

    申请号:CN201911297779.7

    申请日:2019-12-13

    Abstract: 本申请实施例公开了一种合成语音处理方法及相关装置,方法包括:获取针对第一用户的原始合成语音;通过预先训练好的正向生成器模型处理所述原始合成语音,得到针对所述第一用户的目标合成语音,所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。本申请提供的合成语音处理方法,能够改善合成语音的相位失真问题,提高合成语音的音质的自然度,使得合成语音与自然语音更接近。

    一种声学模型构建方法及装置、电子设备

    公开(公告)号:CN109326278B

    公开(公告)日:2022-06-07

    申请号:CN201710640216.8

    申请日:2017-07-31

    Abstract: 本发明公开了一种声学模型构建方法及装置、电子设备,所述方法包括如下步骤:步骤一,收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型;步骤二,利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量;步骤三,利用构建得到的残差向量对初始深度学习模型进行更新,得到更新后的深度学习模型,本发明使声学模型构建时,其输入特征与输出特征包含的信息更匹配,有效提高了建模的精度。

    合成语音处理方法及相关装置

    公开(公告)号:CN113066476A

    公开(公告)日:2021-07-02

    申请号:CN201911297779.7

    申请日:2019-12-13

    Abstract: 本申请实施例公开了一种合成语音处理方法及相关装置,方法包括:获取针对第一用户的原始合成语音;通过预先训练好的正向生成器模型处理所述原始合成语音,得到针对所述第一用户的目标合成语音,所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。本申请提供的合成语音处理方法,能够改善合成语音的相位失真问题,提高合成语音的音质的自然度,使得合成语音与自然语音更接近。

    一种说话人声音转换方法及装置

    公开(公告)号:CN109147758B

    公开(公告)日:2020-02-14

    申请号:CN201811063798.9

    申请日:2018-09-12

    Abstract: 本申请公开了一种说话人声音转换方法及装置,该方法包括:在获取到源说话人的源语音数据后,可以从其中提取出表征其语音内容的内容特征,然后,将该内容特征输入至预先构建的目标特征预测模型,从而可利用该模型预测得到目标说话人说出该源语音数据的语音内容时具有的目标声学特征,接着,合成具有目标声学特征的目标语音数据,该目标语音数据与源语音数据具有相同的语义信息。可见,基于源语音数据的语音内容,通过目标特征预测模型便可以预测出目标说话人说出该源语音数据的语音内容时具有的目标声学特征,而不再考虑源语音数据的频谱和基频,故而,不再受源说话人的基频提取误差等因素的影响,从而提升了声音转换的效果。

Patent Agency Ranking