Patent search ap:("科大讯飞股份有限公司") AND inv:"任继刚" Page 1

1.

发明公开
混合语音发音序列生成方法和模型训练方法、相关装置审中-公开

公开(公告)号：CN120071893A

公开(公告)日：2025-05-30

申请号：CN202510036970.5

申请日：2025-01-09

Applicant: 科大讯飞股份有限公司

Inventor： 任继刚 , 万根顺 , 李鹏程 , 张文辉 , 高建清 , 熊世富 , 刘聪

IPC: G10L15/00 , G10L15/06 , G10L15/02 , G10L15/26

Abstract: 本申请公开了混合语音发音序列生成方法和模型训练方法、相关装置，该混合语音发音序列生成方法包括：基于原始音频信号进行发音预测，得到原始音频信号的预测发音序列，其中，原始音频信号为第一语种对应的音频信号，且携带有第二语种对应的目标词组，第一语种和第二语种为不同的语言；对预测发音序列进行分析，得到目标词组的实际发音序列；以及，生成包含目标词组的初始文本；利用目标词组的实际发音序列与初始文本，生成初始文本对应的混合语音发音序列。上述方案，能够提升多语种混合音频发音序列的质量。

2.

发明公开
语音识别方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN117765932A

公开(公告)日：2024-03-26

申请号：CN202311829918.2

申请日：2023-12-26

Applicant: 科大讯飞股份有限公司

Inventor： 任继刚 , 万根顺 , 王孟之 , 高建清 , 刘聪

IPC: G10L15/02 , G10L15/08

Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：获取待识别语音；确定所述待识别语音中各语音帧所属音素的预测难易程度，基于与所述预测难易程度对应的特征提取方式，提取所述各语音帧的语音特征；基于所述各语音帧的语音特征，确定所述待识别语音的识别结果。本发明提供的方法、装置、电子设备和存储介质，通过确定待识别语音中各语音帧所属音素的预测难易程度，基于与预测难易程度对应的特征提取方式，提取各语音帧的语音特征，以得到待识别语音的识别结果，实现了难易渐进式语音识别，提升了针对较困难语音片段的语音识别效果。

Patent Agency Ranking