Patent search ap:("科大讯飞股份有限公司") AND inv:"熊世富" Page 4

31.

发明公开
音频识别方法和音频识别模型的训练方法审中-实审

公开(公告)号：CN116229949A

公开(公告)日：2023-06-06

申请号：CN202211718321.6

申请日：2022-12-29

Applicant: 科大讯飞股份有限公司

Inventor： 郭顺杰 , 万根顺 , 熊世富 , 高建清 , 潘嘉 , 刘聪

IPC: G10L15/06 , G10L15/16 , G10L15/26

Abstract: 本申请提供一种音频识别方法和音频识别模型的训练方法，所述音频识别方法，包括：获取待识别的音频数据；利用预先训练的音频识别模型，对所述待识别的音频数据进行音频识别处理，得到与所述音频数据对应的文本数据；其中，所述音频识别模型基于对第一音频识别模型中与音频识别任务相关的模型参数进行掩码梯度更新获得；所述第一音频识别模型通过利用包含文本伪标签的第一音频数据和包含文本标签的第二音频数据，对初始音频识别模型进行音频识别训练获得，所述文本伪标签由所述初始音频识别模型对所述第一音频数据进行音频识别而确定。

32.

发明公开
语音识别模型的训练、语音识别方法、装置、设备及介质审中-实审

公开(公告)号：CN116168688A

公开(公告)日：2023-05-26

申请号：CN202211635640.0

申请日：2022-12-19

Applicant: 科大讯飞股份有限公司

Inventor： 李明 , 万根顺 , 熊世富 , 高建清 , 潘嘉 , 刘聪

IPC: G10L15/06 , G10L15/02 , G10L15/16 , G10L15/26

Abstract: 本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质，其中方法包括：确定非流式识别分支和流式识别分支；获取所述非流式识别分支进行语音识别时提取的样本语音中各帧的第一语音特征，以及所述流式识别分支进行语音识别时提取的所述样本语音中各帧的第二语音特征；对所述各帧的第一语音特征进行聚类，得到多个第一特征簇；将所述各帧的第二语音特征划分至所述多个第一特征簇，并基于所述第二语音特征所属的第一特征簇，确定特征提取损失；基于所述特征提取损失，对所述流式识别分支进行参数迭代，得到所述语音识别模型。本发明提供的方法、装置、电子设备及存储介质，进一步提高流式识别分支的语音识别结果的可靠性和准确性。

33.

发明公开
一种语音唤醒方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN115881110A

公开(公告)日：2023-03-31

申请号：CN202211304682.6

申请日：2022-10-24

Applicant: 科大讯飞股份有限公司

Inventor： 郭朝辉 , 许丽 , 熊世富 , 潘嘉 , 刘聪

IPC: G10L15/20 , G10L15/22 , G10L15/26 , G10L15/28

Abstract: 本申请公开了一种语音唤醒方法、装置、电子设备及存储介质，语音唤醒方法包括：获取第一语音数据；对所述第一语音数据进行语音识别，得到所述第一语音数据所表示的第一唤醒词；按照所述第一唤醒词进行第一唤醒操作；以及在所述第一唤醒操作后的预设时间内对所述第一唤醒词进行预设惩罚操作，所述预设惩罚操作用于降低将所述预设时间内获取的第二语音数据识别为所述第一唤醒词的概率。上述方案，能够有效降低多唤醒词之间的串扰。

34.

发明公开
语音识别方法、装置、人机交互设备和存储介质审中-实审

公开(公告)号：CN115762497A

公开(公告)日：2023-03-07

申请号：CN202211394389.3

申请日：2022-11-08

Applicant: 科大讯飞股份有限公司

Inventor： 万根顺 , 茆廷志 , 潘嘉 , 熊世富 , 高建清 , 刘聪 , 胡国平 , 刘庆峰

IPC: G10L15/18 , G10L19/16 , H04N21/4402 , G06F40/279 , G06F40/242 , G06F16/332

Abstract: 本发明提供一种语音识别方法、装置、人机交互设备和存储介质，其中方法包括：确定待识别语音所处环境的环境视频；基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别。本发明提供的语音识别方法、装置、人机交互设备和存储介质，可以形成针对用户的个性化知识，能够拓展符合用户习惯或者匹配当前环境信息的文本语料，从而提高语音识别的准确性，提升语音命令交互成功率，改善用户体验。

35.

发明公开
一种信息生成方法、装置、设备及存储介质审中-实审

公开(公告)号：CN115660629A

公开(公告)日：2023-01-31

申请号：CN202211310689.9

申请日：2022-10-25

Applicant: 科大讯飞股份有限公司

Inventor： 张海钰 , 许丽 , 万根顺 , 潘嘉 , 高建清 , 熊世富 , 刘聪 , 胡国平 , 刘庆峰

IPC: G06Q10/1093

Abstract: 本申请提供了一种信息生成方法、装置、设备及存储介质，具体实现方案为：获取待办事项信息；根据所述待办事项信息确定对应的关联信息；利用所述关联信息和所述待办事项信息生成目标待办事项信息，根据本申请的技术方案，能够实现智能化的生成待办事项。

36.

发明公开
一种语音识别方法、装置、设备及存储介质审中-实审

公开(公告)号：CN115394294A

公开(公告)日：2022-11-25

申请号：CN202210982703.3

申请日：2022-08-16

Applicant: 科大讯飞股份有限公司

Inventor： 王庆然 , 孔常青 , 万根顺 , 马峰 , 熊世富 , 高万军 , 吴如松 , 高建清 , 潘嘉 , 刘聪 , 胡国平 , 刘庆峰

IPC: G10L15/25 , G10L15/02 , G10L15/06

Abstract: 本申请实施例提供了一种语音识别方法、装置、设备及存储介质，所述方法包括:获取待识别语音数据和目标面部图像数据；其中，所述待识别语音数据包括目标用户的语音数据，所述目标面部图像数据至少包括所述目标用户的唇部区域之外的面部图像数据；至少根据所述目标面部图像数据，对所述待识别语音数据进行识别，得到对所述目标用户的语音数据的识别结果。本申请实施例提供的方法能够在用户唇部被遮挡的情况下，准确识别用户的语音。

37.

发明公开
语音标注质量评价方法、装置、设备及存储介质有权转让

公开(公告)号：CN112700763A

公开(公告)日：2021-04-23

申请号：CN202011570121.1

申请日：2020-12-26

Applicant: 科大讯飞股份有限公司

Inventor： 喻涛 , 吴思远 , 熊世富

IPC: G10L15/01

Abstract: 本申请提出一种语音标注质量评价方法、装置、设备及存储介质，该方法包括：获取与目标语音对应的待标注的语音识别结果，所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到，其中，替换后的文本片段是相对于所述目标语音的错误文本片段；获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果，所述文本标注处理为标注识别错误的文本的处理；根据所述待标注的语音识别结果以及所述标注结果，确定所述标注对象对所述目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价，实现了对标注对象的语音标注工作的监督，利于提升标注对象语音标注质量。

38.

发明公开
语音顺滑方法、装置、电子设备及计算机存储介质有权

公开(公告)号：CN110853621A

公开(公告)日：2020-02-28

申请号：CN201910954698.3

申请日：2019-10-09

Applicant: 科大讯飞股份有限公司

Inventor： 熊世富 , 潘嘉 , 高建清 , 刘聪 , 胡国平

IPC: G10L15/02 , G10L15/06 , G10L15/08 , G10L15/14 , G10L15/16 , G10L15/18 , G10L15/22 , G10L15/26 , G10L25/24

Abstract: 本申请提供了一种语音顺滑方法、装置、电子设备以及计算机存储介质，通过获取待顺滑的语音数据；根据所述待顺滑的语音数据确定待顺滑的文本数据；根据所述待顺滑的文本数据确定顺滑后的文本数据；根据所述顺滑后的文本数据确定顺滑后的语音数据。可以删去语音中的冗余部分，在不影响语义的基础上减少语音条的时长，提高用户语音聊天的效率。

39.

发明公开
一种语音意图识别方法及相关装置审中-公开

公开(公告)号：CN120015036A

公开(公告)日：2025-05-16

申请号：CN202510312047.X

申请日：2025-03-17

Applicant: 科大讯飞股份有限公司

Inventor： 高欣建 , 许丽 , 戚婷 , 熊世富 , 殷兵

IPC: G10L15/26 , G10L15/18 , G10L15/02 , G10L15/06 , G06F40/30

Abstract: 本申请公开了一种语音意图识别方法及相关装置，涉及语音处理技术领域，本方案中，利用多通道语音识别模型可以提升多通道语音信号的识别效果。另外，一方面基于预设高频交互文本库对各个通道的语音识别文本进行意图识别能保证高频意图被快速识别出来，另一方面基于训练后的意图识别模型对各个通道的语音识别文本进行意图识别又能保证非高频意图的识别效率和准确率。因此，本方案能够准确地、快速地实现对多通道语音信号的意图识别。

40.

发明公开
情感识别方法、装置、电子设备和计算机程序产品审中-实审

公开(公告)号：CN119851698A

公开(公告)日：2025-04-18

申请号：CN202411990365.3

申请日：2024-12-31

Applicant: 科大讯飞股份有限公司

Inventor： 吴思远 , 蔡明琦 , 熊世富 , 高建清 , 刘聪

IPC: G10L25/63 , G10L25/30 , G10L15/26 , G10L15/04

Abstract: 本申请提出一种情感识别方法、装置、电子设备和计算机程序产品，该方法能够对语音数据进行识别，得到语音数据对应的文本数据和对象切换点。然后按照对象切换点进行切分，得到语音数据对应的多个语音数据单元，以及文本数据对应的多个文本数据单元，其中，语音数据单元和由该语音数据单元识别得到的文本数据单元对应相同的语音内容。最后根据各语音内容对应的语音数据单元和文本数据单元，识别得到各语音内容的情感。如此设置，可以按照说话对象改变的点进行切分，得到单个说话对象对应的语音数据单元和文本数据单元，从语音和文本两个维度对单个说话对象的语音内容情感进行识别，如此可以得到更加准确的识别结果。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification