-
公开(公告)号:CN116825099A
公开(公告)日:2023-09-29
申请号:CN202310641362.8
申请日:2023-05-31
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/26 , G10L15/24 , G10L25/57 , G06V20/40 , G06V10/40 , G06V10/80 , G06F18/25 , G06F18/24 , G06F18/214 , G06F18/23213
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取指定领域的目标语音和目标视频,其中,目标语音为目标视频的视频画面内容的解说语音;从目标视频的视频画面中检测实体,得到第一目标实体;从指定领域的知识图谱中获取第一目标实体的知识信息;辅以第一目标实体的知识信息,对目标语音进行语音识别,得到目标语音的语音识别结果。本发明从解说语音的特点出发,提出从目标视频的视频画面中检测实体,并从知识图谱中获取检测出的实体的知识信息,进而辅以获得的实体知识信息对目标语音进行识别,在对目标语音进行识别时,辅以从目标视频的视频画面中检测出的实体的知识信息,能够获得较为准确的语音识别结果。
-
公开(公告)号:CN114520001A
公开(公告)日:2022-05-20
申请号:CN202210281930.3
申请日:2022-03-22
Applicant: 科大讯飞股份有限公司
IPC: G10L15/197 , G10L15/18 , G10L15/26 , G10L15/30 , G10L15/06
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,其中,方法包括:获取待识别语音,基于预先训练得到的语音识别模型对待识别语音进行识别,其中,语音识别模型通过两个阶段的训练得到,第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练,第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。经由本发明提供的语音识别方法可获得用户可接受度较高的语音识别结果。
-