-
公开(公告)号:CN113035179B
公开(公告)日:2023-09-26
申请号:CN202110233724.0
申请日:2021-03-03
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Inventor: 尤祖寰
IPC: G10L15/18
Abstract: 本申请提供了一种语音识别方法、装置、设备及计算机可读存储介质,其中,语音识别方法包括:根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,目标语音为针对目标问题的作答语音,目标关键词为目标问题中包含的关键词,和/或目标问题对应的标准答案中包含的关键词;根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。本申请提供的语音识别方法在确定当前解码时刻解码所需的上下文向量时,由于结合了目标关键词和与目标关键词有关的目标问题,因此,基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词。
-
公开(公告)号:CN119724187A
公开(公告)日:2025-03-28
申请号:CN202411981844.9
申请日:2024-12-31
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置,涉及语音处理技术领域,包括:在确定待识别语音数据的通用解码文本序列之后,先将通用解码文本序列转换为元素粒度更低的可泛化文本序列,再利用与可泛化文本序列中各元素对应的相似元素对可泛化文本序列进行扩充,得到相应粒度的扩充文本序列;并基于预设的长尾词汇语言模型对可泛化文本序列和扩充文本序列进行重贴分操作,得到长尾解码文本序列;最后,基于通用解码文本序列以及长尾解码文本序列,确定最终的语音识别结果。由于该方案能够得到长尾解码文本序列,因此能够提升最终的语音识别结果是长尾解码文本序列的可能性,因此,能够有效提升端到端语音识别模型的长尾词汇识别效果。
-
公开(公告)号:CN114333778A
公开(公告)日:2022-04-12
申请号:CN202111661788.7
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,然后再将目标语音输入至预先构建的语音识别模型,识别得到目标语音对应的字符概率分布;其中,语音识别模型是在基于注意力机制的神经网络模型基础上,结合RnnT损失约束函数训练得到的神经网络模型;接着可以根据目标语音对应的字符概率分布,对目标语音进行识别,得到目标语音的识别结果。由于本申请中预先构建的语音识别模型是在基于注意力机制的神经网络模型基础上,结合RnnT损失约束函数训练得到的,从而能够在模型训练时,利用RnnT损失约束函数显式地对输入特征和输出字符之间做对齐约束,进而提升了模型的泛化能力,也提升了语音识别效果和准确率。
-
公开(公告)号:CN113035179A
公开(公告)日:2021-06-25
申请号:CN202110233724.0
申请日:2021-03-03
Applicant: 科大讯飞股份有限公司
Inventor: 尤祖寰
IPC: G10L15/18
Abstract: 本申请提供了一种语音识别方法、装置、设备及计算机可读存储介质,其中,语音识别方法包括:根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,目标语音为针对目标问题的作答语音,目标关键词为目标问题中包含的关键词,和/或目标问题对应的标准答案中包含的关键词;根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。本申请提供的语音识别方法在确定当前解码时刻解码所需的上下文向量时,由于结合了目标关键词和与目标关键词有关的目标问题,因此,基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词。
-
公开(公告)号:CN117711378A
公开(公告)日:2024-03-15
申请号:CN202311629338.9
申请日:2023-11-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;基于语音识别模型,对所述待识别语音进行语音识别;所述语音识别模型是联合基于语音的音素识别任务和/或基于音素的文本生成任务,以及语音识别任务训练得到的。本发明提供的方法、装置、电子设备和存储介质,联合基于语音的音素识别任务和/或基于音素的文本生成任务,以及语音识别任务训练语音识别模型,以增强语音识别模型对于语音信息的提取能力,使得基于由此训练得到的语音识别模型,能够获取到在语义层面上表现更优的语音识别文本,从而提高语音识别的可靠性和准确性。
-
公开(公告)号:CN114283786A
公开(公告)日:2022-04-05
申请号:CN202111669746.8
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、装置及计算机可读存储介质。其中,该方法包括:获取待识别语音信息;利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取,获得至少两个语音特征;其中,每个所述子编码网络根据相应语种的样本数据训练得到;利用融合网络将所述至少两个语音特征进行融合,得到融合语音特征;利用解码网络对所述融合语音特征进行解码,得到语音识别结果。通过上述方式,本申请能够提高语音识别的准确度。
-
-
-
-
-