-
公开(公告)号:CN116825099A
公开(公告)日:2023-09-29
申请号:CN202310641362.8
申请日:2023-05-31
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/26 , G10L15/24 , G10L25/57 , G06V20/40 , G06V10/40 , G06V10/80 , G06F18/25 , G06F18/24 , G06F18/214 , G06F18/23213
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取指定领域的目标语音和目标视频,其中,目标语音为目标视频的视频画面内容的解说语音;从目标视频的视频画面中检测实体,得到第一目标实体;从指定领域的知识图谱中获取第一目标实体的知识信息;辅以第一目标实体的知识信息,对目标语音进行语音识别,得到目标语音的语音识别结果。本发明从解说语音的特点出发,提出从目标视频的视频画面中检测实体,并从知识图谱中获取检测出的实体的知识信息,进而辅以获得的实体知识信息对目标语音进行识别,在对目标语音进行识别时,辅以从目标视频的视频画面中检测出的实体的知识信息,能够获得较为准确的语音识别结果。
-
公开(公告)号:CN115762497A
公开(公告)日:2023-03-07
申请号:CN202211394389.3
申请日:2022-11-08
Applicant: 科大讯飞股份有限公司
IPC: G10L15/18 , G10L19/16 , H04N21/4402 , G06F40/279 , G06F40/242 , G06F16/332
Abstract: 本发明提供一种语音识别方法、装置、人机交互设备和存储介质,其中方法包括:确定待识别语音所处环境的环境视频;基于所述环境视频的视频描述文本,对所述视频描述文本进行实体抽取,并基于实体抽取结果更新关键词库,和/或,对所述视频描述文本进行实体关系抽取,并基于实体关系抽取结果更新知识图谱;基于更新后的关键词库和/或更新后的知识图谱,对所述待识别语音进行语音识别。本发明提供的语音识别方法、装置、人机交互设备和存储介质,可以形成针对用户的个性化知识,能够拓展符合用户习惯或者匹配当前环境信息的文本语料,从而提高语音识别的准确性,提升语音命令交互成功率,改善用户体验。
-
公开(公告)号:CN116758912A
公开(公告)日:2023-09-15
申请号:CN202310641371.7
申请日:2023-05-31
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/24 , G10L15/26 , G10L25/57 , G06V20/40 , G06V10/40 , G06F18/25 , G06F18/24 , G06F18/214 , G06F18/23
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取目标语音和目标视频,其中,目标语音为目标视频的视频内容的解说语音;对目标语音提取声学特征,得到目标语音的声学特征,并对目标视频提取含视频内容信息的视觉特征,得到目标视频的视觉特征;根据目标语音的声学特征并辅以目标视频的视觉特征,确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音,其与目标视频的视频内容具有一定的相关性,本发明对目标视频提取含视频内容信息的视觉特征,辅以视觉特征对解说语音进行语音识别,在对目标语音即解说语音进行语音识别时,辅以含视频内容信息的视觉特征,能够获得较为准确的语音识别结果。
-
公开(公告)号:CN115526228A
公开(公告)日:2022-12-27
申请号:CN202211000191.2
申请日:2022-08-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的多媒体数据;基于识别模型,确定所述多媒体数据的情绪识别结果和/或意图识别结果;所述识别模型是基于样本多媒体数据,以及所述样本多媒体数据的情绪标签和意图标签,执行包括情绪识别和意图识别在内的多任务学习得到。本发明提供的方法、装置、电子设备和存储介质,应用包括情绪识别和意图识别在内的多任务学习所得的识别模型进行情绪识别和/或意图识别,使得多媒体数据中与情绪、意图相关的信息能够得到充分应用,提高了情绪识别和意图识别的结果准确率。
-
公开(公告)号:CN119692368A
公开(公告)日:2025-03-25
申请号:CN202510205232.9
申请日:2025-02-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、系统和相关装置,该方法包括:获取至少一端的输入音频,确定所述输入音频的待翻译语种,将每端的所述输入音频分别作为待翻译音频,确定所述待翻译音频对应的初始识别文本;其中,所述初始识别文本匹配有至少一个识别语种;基于所述待翻译语种、所述初始识别文本及其对应的所述识别语种,获取与所述待翻译音频匹配的提示文本;其中,所述提示文本包括与所述识别语种匹配的转换语种;从候选词库中获取与所述初始识别文本匹配的参考词汇;基于所述初始识别文本、所述提示文本和所述参考词汇,获取所述待翻译音频对应的翻译文本。通过上述方式,本申请能够提高语音翻译的准确性和效率。
-
公开(公告)号:CN117746864A
公开(公告)日:2024-03-22
申请号:CN202311871442.9
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音识别方法、模型训练方法、装置、设备及存储介质,对语音数据进行编码,得到语音数据的编码特征,对编码特征进行解码,得到解码特征;该解码特征用于确定语音数据的语音识别结果和语法分类结果,对解码特征进行处理,得到语音识别结果。本申请对解码特征进行解码得到的解码特征既可以用于语音识别,也可以用于语法分类,也就是说,本申请对语音数据进行编码的过程,以及对解码特征进解码的过程考虑了语法知识,从而提高了语音识别结果的准确性。
-
公开(公告)号:CN119721071A
公开(公告)日:2025-03-28
申请号:CN202510224089.8
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、系统和相关装置,该方法包括:基于目标对象的待翻译音频,确定所述待翻译音频对应的音频特征、文本转换特征和所述目标对象匹配的声学特征;获取与翻译任务匹配的链路信息,基于所述链路信息、所述音频特征、所述文本转换特征和所述声学特征,编码得到与所述待翻译音频匹配的目标转换特征;对所述目标转换特征进行解码,得到所述待翻译音频对应的翻译音频。通过上述方式,本申请能够提高语音翻译的准确性。
-
公开(公告)号:CN118711591A
公开(公告)日:2024-09-27
申请号:CN202410507643.9
申请日:2024-04-25
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/183 , G10L15/28
Abstract: 本申请提出一种语音识别方法、装置、电子设备、存储介质及产品,该方法包括:对历史语音的识别结果进行编码处理,得到历史语音的识别结果的编码信息,以及,对待识别语音进行编码处理,得到待识别语音的编码信息;将历史语音的识别结果的编码信息,与待识别语音的编码信息进行融合,得到待识别语音的语音编码信息;对语音编码信息进行解码处理,得到待识别语音的识别结果。本方案将历史语音的识别结果的编码信息,与待识别语音的编码信息进行融合,实现了在对待识别语音进行编码的过程中,结合历史语音的识别结果,能够使得在待识别语音的编码过程中便结合上文信息,提高待识别语音的语音编码信息的准确度,进而提高语音识别的准确度。
-
公开(公告)号:CN118571224A
公开(公告)日:2024-08-30
申请号:CN202410739670.9
申请日:2024-06-07
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法以及相关装置,该方法包括:获取目标对象的待识别音频;基于所述待识别音频,获取用户从多个候选条件中选定的目标条件以及从多个候选风格中选定的目标风格;其中,所述目标条件与所述目标对象和所述目标对象所在的目标场景中的至少一者相关,所述目标风格与预设的识别格式相关;基于所述目标条件和所述目标风格,获取所述待识别音频对应的目标识别文本。通过上述方式,本申请能够提高语音识别得到的目标识别文本与用户需求的契合度。
-
公开(公告)号:CN117789703A
公开(公告)日:2024-03-29
申请号:CN202311810150.4
申请日:2023-12-25
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/26 , G10L15/18 , G10L15/16 , G10L15/02 , G06F40/40 , G06N3/048 , G06N3/084 , G06N3/092
Abstract: 本申请实施例公开了一种语音处理相关方法、装置、设备及存储介质,基于训练好的翻译模型对预训练的语音识别模型做指导训练,在训练过程中,除了通过预训练的语音识别模型对语音样本进行识别处理外,还通过训练好的翻译模型对预训练的语音识别模型对语音样本进行识别处理过程中的目标特征以及语音识别结果中的至少一项进行翻译处理,得到翻译结果,以语音识别结果趋近于语音样本的文本标签,翻译结果趋近于以文本标签作为源语言文本的目标语言文本为目标,对预训练的语音识别模型的参数进行更新。基于本申请训练得到的语音识别模型,提升了语音识别模型的语音识别输出结果的语义准确性,可懂度高,提升了用户主观体验。
-
-
-
-
-
-
-
-
-