语音识别方法、系统、设备、介质及产品

    公开(公告)号:CN119943039A

    公开(公告)日:2025-05-06

    申请号:CN202510423624.2

    申请日:2025-04-07

    Abstract: 本发明提供一种语音识别方法、系统、设备、介质及产品,涉及语音处理技术领域,其中方法包括:根据当前语音数据流中各语音片段的时频特征,对各所述语音片段进行下采样,得到待识别语音序列;对所述待识别语音序列中的各数据单元进行编码,并将编码完成的数据单元对应的编码特征缓存至目标缓存区间;通过解码线程异步从所述目标缓存区间中加载多个目标编码特征,并对多个所述目标编码特征进行解码,得到所述当前语音数据流的实时语音识别结果。本发明实现通过动态下采样和多线程异步并发处理的机制进行语音识别,可有效保障在有限资源的条件下,也能有效提升识别精度、实时性和能效。

    多语种语音识别模型训练方法及相关装置

    公开(公告)号:CN119694302A

    公开(公告)日:2025-03-25

    申请号:CN202411769405.1

    申请日:2024-12-04

    Abstract: 本申请公开了一种多语种语音识别模型训练方法及相关装置,涉及语音识别技术领域,包括:预先构建包含第一训练分支和第二训练分支的多语种语音识别模型训练模型,其中,第一训练分支和第二训练分支均由编码器和解码器组成,第一训练分支和第二训练分支共用解码器和部分编码器;通过语音文本有监督训练数据以及纯文本训练数据,对第一训练分支和第二训练分支进行多任务联合训练,得到训练好的第一训练分支作为多语种语音识别模型。该方案能够降低模型训练的计算开销,提高训练数据的利用率,从而在有效降低训练周期和减少有监督训练数据的情况下,训练得到一个高效、准确的多语种语音识别模型,进而提升多语种语音识别的效果。

    一种语音识别方法及相关装置、设备和存储介质

    公开(公告)号:CN119541495A

    公开(公告)日:2025-02-28

    申请号:CN202411461438.X

    申请日:2024-10-18

    Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,语音识别方法包括:获取当前轮次的第一解码特征;其中,当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息;获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率,并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合,得到第二解码特征;基于第二解码特征进行解码,得到当前轮次所输出的解码字符,并返回获取当前轮次的第一解码特征的步骤进行迭代,直至最新输出的解码字符表征语音识别结束为止,基于各个轮次的解码字符,得到待识别语音的识别文本。上述方案,能够提升语音识别的效率和准确性,特别是流式语音识别的效率和准确性。

    故障预测方法及相关装置、设备和存储介质

    公开(公告)号:CN119397342A

    公开(公告)日:2025-02-07

    申请号:CN202411202546.5

    申请日:2024-08-29

    Abstract: 本申请公开了一种故障预测方法及相关装置、设备和存储介质,其中,故障预测方法包括:获取待测设备在运行过程中关于若干种模态的采集数据;基于若干种模态采集数据各自的跳变检测结果,调整若干种模态各自的注意力参数;基于若干种模态各自的注意力参数,得到待测设备的目标数据特征;基于目标数据特征进行预测,得到待测设备的故障预测结果;其中,故障预测结果至少包括待测设备分别存在若干种预设故障类型的可能性。上述方案,能够提高设备故障预测的实时性和精确性。

    语音识别方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN118538221A

    公开(公告)日:2024-08-23

    申请号:CN202410507743.1

    申请日:2024-04-25

    Abstract: 本申请提供了语音识别方法、装置、设备、存储介质及程序产品,该方法包括:在第i个语音段的识别结果中将置信度小于置信度阈值的实体关键词进行标注,得到对应的第一待纠错文本,并将第一待纠错文本添加至待纠错文本集合;将第i+k个语音段的语音编码和待纠错文本集合输入大语言模型,以使大语言模型对第i+k个语音段的语音编码进行解码,以及对待纠错文本集合进行纠错;在第一待纠错文本对应的纠错结果中的实体关键词的置信度均不小于置信度阈值的情况下,将第一待纠错文本对应的纠错结果确定为第i个语音段的更新后识别结果,并将第一待纠错文本移出待纠错文本集合。根据本申请的技术方案,能够有效提升长语音中的实体关键词识别的准确性。

    语音识别方法、装置、设备及存储介质

    公开(公告)号:CN117636845A

    公开(公告)日:2024-03-01

    申请号:CN202311595931.6

    申请日:2023-11-23

    Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,具体实现方案为:基于第i帧音频的标签状态确定跳帧数;其中,i为正整数;利用所述跳帧数对所述第i帧音频进行跳帧解码处理,得到目标音频帧对应的非空白标签特征;其中,所述目标音频帧表示第i+1帧音频之前的标签状态为非空白标签的音频帧;基于所述第i+1帧音频和所述目标音频帧对应的非空白标签特征,预测所述第i+1帧音频的标签状态;根据所述第i+1帧音频的标签状态确定所述第i+1帧音频的语音识别结果。根据本申请的技术方案,能够显著提升推理速度,从而提高语音识别的效率。

    语音识别方法及相关装置、设备和存储介质

    公开(公告)号:CN117253473A

    公开(公告)日:2023-12-19

    申请号:CN202310998098.3

    申请日:2023-08-07

    Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:获取待识别语音,并获取语音识别模型;基于语音识别模型对待识别语音中音频帧进行识别,得到待识别语音的识别文本;其中,语音识别模型至少基于样本识别文本与语音识别模型对样本语音的预测识别文本之间的差异调整网络参数,预测识别文本中的预测解码字符基于语音识别模型对目标音频帧和目标字符进行解码预测得到,目标音频帧为样本语音中对齐于样本识别文本中样本字符的样本音频帧,目标字符在样本识别文本中位于对齐于目标音频帧的样本字符之前。上述方案,能够尽可能地减少语音识别模型的显存使用量,特别是在模型训练过程,以提升语音识别模型的处理速度。

Patent Agency Ranking