混合语音发音序列生成方法和模型训练方法、相关装置

    公开(公告)号:CN120071893A

    公开(公告)日:2025-05-30

    申请号:CN202510036970.5

    申请日:2025-01-09

    Abstract: 本申请公开了混合语音发音序列生成方法和模型训练方法、相关装置,该混合语音发音序列生成方法包括:基于原始音频信号进行发音预测,得到原始音频信号的预测发音序列,其中,原始音频信号为第一语种对应的音频信号,且携带有第二语种对应的目标词组,第一语种和第二语种为不同的语言;对预测发音序列进行分析,得到目标词组的实际发音序列;以及,生成包含目标词组的初始文本;利用目标词组的实际发音序列与初始文本,生成初始文本对应的混合语音发音序列。上述方案,能够提升多语种混合音频发音序列的质量。

    语音识别方法、装置、电子设备和存储介质

    公开(公告)号:CN117765932A

    公开(公告)日:2024-03-26

    申请号:CN202311829918.2

    申请日:2023-12-26

    Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;确定所述待识别语音中各语音帧所属音素的预测难易程度,基于与所述预测难易程度对应的特征提取方式,提取所述各语音帧的语音特征;基于所述各语音帧的语音特征,确定所述待识别语音的识别结果。本发明提供的方法、装置、电子设备和存储介质,通过确定待识别语音中各语音帧所属音素的预测难易程度,基于与预测难易程度对应的特征提取方式,提取各语音帧的语音特征,以得到待识别语音的识别结果,实现了难易渐进式语音识别,提升了针对较困难语音片段的语音识别效果。

Patent Agency Ranking