-
公开(公告)号:CN117253473A
公开(公告)日:2023-12-19
申请号:CN202310998098.3
申请日:2023-08-07
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:获取待识别语音,并获取语音识别模型;基于语音识别模型对待识别语音中音频帧进行识别,得到待识别语音的识别文本;其中,语音识别模型至少基于样本识别文本与语音识别模型对样本语音的预测识别文本之间的差异调整网络参数,预测识别文本中的预测解码字符基于语音识别模型对目标音频帧和目标字符进行解码预测得到,目标音频帧为样本语音中对齐于样本识别文本中样本字符的样本音频帧,目标字符在样本识别文本中位于对齐于目标音频帧的样本字符之前。上述方案,能够尽可能地减少语音识别模型的显存使用量,特别是在模型训练过程,以提升语音识别模型的处理速度。
-
公开(公告)号:CN113793600B
公开(公告)日:2023-12-01
申请号:CN202111086713.0
申请日:2021-09-16
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音识别方法、装置、设备及存储介质,获得当前时刻各个可能的解码结果在多个领域中的每一个领域的语言分数,以当前时刻各个可能的解码结果的声学分数为基准,确定各个领域的语言分数的权重,然后根据当前时刻各个可能的解码结果在每一领域的语言分数的加权求和结果,以及当前时刻各个可能的解码结果的声学分数,确定当前时刻的解码结果。由于在解码过程中考虑了当前时刻各个可能的解码结果在每一个领域的语言分数,且对不同领域的语言分数赋予了不同的权重,实现了领域语言模型的自适应选择,从而提高语音识别方法的领域适应性。
-
公开(公告)号:CN112786052B
公开(公告)日:2024-05-31
申请号:CN202011643222.7
申请日:2020-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、电子设备和存储装置,该方法包括:采集用户说话时的待识别数据;其中,待识别数据包括音频数据和用户嘴部的视频数据;利用视频数据,提取到第一特征表示,并利用音频数据,提取到第二特征表示;对待识别数据执行若干次以下识别步骤:利用第一特征表示、第二特征表示和上次识别的预测文字,获取视频数据和音频数据两者的融合上下文表示,并利用融合上下文表示进行预测,得到本次识别的预测文字;将若干次识别的预测文字的组合,作为待识别数据的最终识别文本。上述方案,能够提高语音识别的准确度。
-
公开(公告)号:CN117765932A
公开(公告)日:2024-03-26
申请号:CN202311829918.2
申请日:2023-12-26
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;确定所述待识别语音中各语音帧所属音素的预测难易程度,基于与所述预测难易程度对应的特征提取方式,提取所述各语音帧的语音特征;基于所述各语音帧的语音特征,确定所述待识别语音的识别结果。本发明提供的方法、装置、电子设备和存储介质,通过确定待识别语音中各语音帧所属音素的预测难易程度,基于与预测难易程度对应的特征提取方式,提取各语音帧的语音特征,以得到待识别语音的识别结果,实现了难易渐进式语音识别,提升了针对较困难语音片段的语音识别效果。
-
公开(公告)号:CN115910070A
公开(公告)日:2023-04-04
申请号:CN202211589720.7
申请日:2022-12-12
Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司
IPC: G10L15/26 , G10L15/04 , G10L15/02 , G10L19/16 , G06F40/295 , G06N3/08 , G06N3/0442 , G06N3/0455 , G06N3/0464
Abstract: 本申请公开了一种语音识别方法、装置、设备及存储介质,本申请基于待识别语音得到由实体词类别标签及其余非实体词的字符组成的初步识别文本,进一步,基于实体词类别标签对应的语音片段和预设的发音词典及语言模型,得到实体词类别标签对应的实体词字符,由实体词字符替换掉初步识别文本中对应的实体词类别标签,得到最终的识别文本。在出现新的领域实体词时,只需要对发音词典和语言模型进行更新即可,无需对语音识别模型进行迭代更新,学习成本更低,且不会出现由于更新语音识别模型导致的灾难性遗忘问题,并且能够保证对新出现的领域实体词的识别准确度。
-
公开(公告)号:CN112786052A
公开(公告)日:2021-05-11
申请号:CN202011643222.7
申请日:2020-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、电子设备和存储装置,该方法包括:采集用户说话时的待识别数据;其中,待识别数据包括音频数据和用户嘴部的视频数据;利用视频数据,提取到第一特征表示,并利用音频数据,提取到第二特征表示;对待识别数据执行若干次以下识别步骤:利用第一特征表示、第二特征表示和上次识别的预测文字,获取视频数据和音频数据两者的融合上下文表示,并利用融合上下文表示进行预测,得到本次识别的预测文字;将若干次识别的预测文字的组合,作为待识别数据的最终识别文本。上述方案,能够提高语音识别的准确度。
-
公开(公告)号:CN115312041A
公开(公告)日:2022-11-08
申请号:CN202210945100.6
申请日:2022-08-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关产品,该方法可以包括:获取语音数据以及热词库;热词库包括热词;根据语音数据,确定语音数据的声学特征;基于热词库中的热词和声学特征,确定热词的整词分数;利用热词的整词分数对语音数据进行热词激励。通过确定热词库中的热词的整词分数,在进行热词激励时,可以直接按照整词分数进行热词激励,因此,可以避免按照单字或子词的分数逐一进行激励而导致的整词激励失败的问题,从而提高热词语音识别的准确率。
-
公开(公告)号:CN113793600A
公开(公告)日:2021-12-14
申请号:CN202111086713.0
申请日:2021-09-16
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音识别方法、装置、设备及存储介质,获得当前时刻各个可能的解码结果在多个领域中的每一个领域的语言分数,以当前时刻各个可能的解码结果的声学分数为基准,确定各个领域的语言分数的权重,然后根据当前时刻各个可能的解码结果在每一领域的语言分数的加权求和结果,以及当前时刻各个可能的解码结果的声学分数,确定当前时刻的解码结果。由于在解码过程中考虑了当前时刻各个可能的解码结果在每一个领域的语言分数,且对不同领域的语言分数赋予了不同的权重,实现了领域语言模型的自适应选择,从而提高语音识别方法的领域适应性。
-
-
-
-
-
-
-