Patent search ap:("科大讯飞股份有限公司") AND inv:"刘广厚" Page 1

1.

发明公开
特定说话人语音识别方法、装置、相关设备及计算机程序产品审中-实审

公开(公告)号：CN118298830A

公开(公告)日：2024-07-05

申请号：CN202410520839.1

申请日：2024-04-28

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 李永超 , 吴明辉 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L15/26 , G10L15/02 , G10L17/02

Abstract: 本申请公开了一种特定说话人语音识别方法、装置、相关设备及计算机程序产品，采用解耦每个说话人的方式，给语音识别模型一个目标说话人的提示语音及待分离的混合语音，让模型一次只输出混合语音中该目标说话人的说话内容对应的识别文本，模型每次输出仅包含一个目标说话人的说话内容识别文本，可以保证说话人与说话内容识别文本间的对应匹配，且避免传统方案由于分隔符位置预测错误所导致的多个说话人的说话内容预测错误的情况。本申请方案中模型能够以目标说话人的提示语音作为参考，更加准确的从混合语音中分离出目标说话人的说话内容识别文本，提升了目标说话人语音识别结果的准确度。

2.

发明公开
多说话人语音识别方法、装置、相关设备及计算机程序产品审中-实审

公开(公告)号：CN118380001A

公开(公告)日：2024-07-23

申请号：CN202410590383.6

申请日：2024-05-13

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 马志强 , 李永超 , 吴明辉 , 方昕 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L17/02 , G10L17/04 , G10L17/18 , G10L15/04

Abstract: 本申请公开了一种多说话人语音识别方法、装置、相关设备及计算机程序产品，涉及语音识别领域，获取混合语音中每一说话人的说话时间戳信息以及配置的每一说话人的标识向量，生成每一说话人相对于混合语音的嵌入向量表示，融合混合语音的声学特征向量和每一说话人相对于混合语音的嵌入向量表示，得到融合向量表示，通过该融合向量表示可以包含说话人信息及说话人边界信息，基于融合向量表示执行多说话人语音识别任务，可以有效提升对混合语音的识别结果的准确度。

3.

发明公开
音频文本强制对齐方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN118230715A

公开(公告)日：2024-06-21

申请号：CN202410468801.4

申请日：2024-04-18

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 马志强 , 李永超 , 吴明辉 , 方昕 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L13/08 , G10L15/26 , G10L25/30

Abstract: 本申请公开了一种音频文本强制对齐方法、装置、设备及可读存储介质。本方案中，在确定待对齐音频以及与待对齐音频对应的待对齐文本的音素标签序列之后，基于对齐路径中隶属于两个相邻单字的相邻两个音素标签之间包括预设停顿间隔标签，并且隶属于同一个单字的相邻两个音素标签之间不包括预设停顿间隔标签的规则，根据待对齐音频中各音频帧对应预设停顿间隔标签、预设静音标签、预设各音素标签的概率和待对齐文本的音素标签序列确定最终对齐路径，能够使得最终对齐路径中，不会出现隶属于两个相邻单字的相邻两个音素标签之间丢失停顿间隔的问题，也不会出现隶属于同一个单字的相邻两个音素标签之间包括停顿间隔的问题。

4.

发明公开
语音识别方法、装置、相关设备及计算机程序产品审中-实审

公开(公告)号：CN118197287A

公开(公告)日：2024-06-14

申请号：CN202410541327.3

申请日：2024-04-30

Applicant: 科大讯飞股份有限公司

Inventor： 胡今朝 , 吴重亮 , 马志强 , 李永超 , 吴明辉 , 方昕 , 许广军 , 刘广厚 , 王豹 , 张为泰 , 刘权 , 王士进

IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/26 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/088

Abstract: 本申请公开了一种语音识别方法、装置、相关设备及计算机程序产品，提供了一种基于转置的自注意力机制，可以先从第一维度（可以是通道维度或时间维度）对声学特征进行自注意力机制计算，对结果进行转置处理，之后沿第二维度（可以是时间维度或通道维度）对转置结果再次进行自注意力机制计算，从而实现了同时在通道维度和时间维度上通过自注意力机制进行建模，更好地进行多通道信息的融合，提升多通道语音识别效果。进一步地，本申请基于多通道语音信号进行端到端的语音建模，与传统方案对比不需要将多通道语音信号融合成单一通道语音信号，因而不会存在语音信息的丢失，进一步提升了多通道语音识别效果。

Patent Agency Ranking