-
公开(公告)号:CN119541495A
公开(公告)日:2025-02-28
申请号:CN202411461438.X
申请日:2024-10-18
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,语音识别方法包括:获取当前轮次的第一解码特征;其中,当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息;获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率,并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合,得到第二解码特征;基于第二解码特征进行解码,得到当前轮次所输出的解码字符,并返回获取当前轮次的第一解码特征的步骤进行迭代,直至最新输出的解码字符表征语音识别结束为止,基于各个轮次的解码字符,得到待识别语音的识别文本。上述方案,能够提升语音识别的效率和准确性,特别是流式语音识别的效率和准确性。
-
公开(公告)号:CN117711386A
公开(公告)日:2024-03-15
申请号:CN202311750395.2
申请日:2023-12-19
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/00 , G10L15/183 , G10L15/22
Abstract: 本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质,其中方法包括:获取初始编码器;基于不同语种下语音的语种共享表征和/或语种特定表征,对初始编码器进行预训练,得到预训练编码器;基于预训练编码器,构建预训练识别模型;对预训练识别模型进行有监督微调,得到语音识别模型。基于不同语种下语音的语种共享表征和/或语种特定表征,对初始编码器进行预训练,得到预训练编码器,可以抑制语种间串扰问题,指导初始编码器学习更易于适应不同语种的语音表征,在不显著增加模型参数量和计算量的情况下,既能提升低资源语种识别性能,又能保持高资源语种性能相较于单语模型不降,从而提供一个高效、准确的多语种语音识别模型。
-