一种语音识别方法及相关装置
    61.
    发明公开

    公开(公告)号:CN119724187A

    公开(公告)日:2025-03-28

    申请号:CN202411981844.9

    申请日:2024-12-31

    Abstract: 本申请公开了一种语音识别方法及相关装置,涉及语音处理技术领域,包括:在确定待识别语音数据的通用解码文本序列之后,先将通用解码文本序列转换为元素粒度更低的可泛化文本序列,再利用与可泛化文本序列中各元素对应的相似元素对可泛化文本序列进行扩充,得到相应粒度的扩充文本序列;并基于预设的长尾词汇语言模型对可泛化文本序列和扩充文本序列进行重贴分操作,得到长尾解码文本序列;最后,基于通用解码文本序列以及长尾解码文本序列,确定最终的语音识别结果。由于该方案能够得到长尾解码文本序列,因此能够提升最终的语音识别结果是长尾解码文本序列的可能性,因此,能够有效提升端到端语音识别模型的长尾词汇识别效果。

    流式语音交互方法及相关装置、设备和存储介质

    公开(公告)号:CN119694304A

    公开(公告)日:2025-03-25

    申请号:CN202510202865.4

    申请日:2025-02-24

    Abstract: 本申请公开了一种流式语音交互方法及相关装置、设备和存储介质,其中,流式语音交互方法包括:基于当前采集的第一流式语音进行第一分类,得到第一流式语音的第一预测类别;响应于第一预测类别为人声,至少基于第一流式语音进行第二分类,得到第一流式语音的第二预测类别;响应于第二预测类别为真实人声,至少基于第一流式语音进行第三分类,得到第一流式语音的第三预测类别;基于第三预测类别,对当前正在输出的机器对话内容执行目标交互操作。上述方案,能够尽可能地减少流式语音的误触发,提升流式语音交互的准确性。

    流式语音交互方法及相关装置、设备和存储介质

    公开(公告)号:CN119479620A

    公开(公告)日:2025-02-18

    申请号:CN202510026410.1

    申请日:2025-01-08

    Abstract: 本申请公开了一种流式语音交互方法及相关装置、设备和存储介质,其中,流式语音交互方法包括:对流式语音进行端点检测,并响应于检测到流式语音的起始端点,对流式语音执行滑窗操作,得到语音帧,基于语音帧进行特征提取,得到语音帧的语音特征;输入语音帧的语音特征至用于识别流式语音的语音识别系统,得到语音帧的识别结果,基于语音帧的编码特征进行分类预测,得到语音帧的分类结果;响应于分类结果表征语义结束,基于从起始端点至结束端点各个语音帧的识别结果,得到识别文本,至少基于识别文本由智能对话模型进行处理,生成得到回复文本;响应于分类结果表征语义未结束,继续返回执行滑窗操作。上述方案,能够提升流式语音交互的适时性。

    语音识别方法及相关装置
    66.
    发明公开

    公开(公告)号:CN118335084A

    公开(公告)日:2024-07-12

    申请号:CN202410507639.2

    申请日:2024-04-25

    Abstract: 本申请提出一种语音识别方法及相关装置,涉及语音识别技术领域。该语音识别方法可以包括:获取历史信息的第一编码信息;其中,所述历史信息包括:历史语音;获取第二编码信息;其中,所述第二编码信息包括待识别语音段的编码信息;将所述第一编码信息作为大语言模型的引导信息,通过所述大语言模型对所述第二编码信息进行解码,得到所述待识别语音段的语音识别结果;其中,所述语音识别结果包括与所述待识别语音段对应的文本信息。本申请提供的技术方案能够提升语音识别效果。

    语音识别模型的训练、语音识别方法、装置、设备及介质

    公开(公告)号:CN117711386A

    公开(公告)日:2024-03-15

    申请号:CN202311750395.2

    申请日:2023-12-19

    Abstract: 本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质,其中方法包括:获取初始编码器;基于不同语种下语音的语种共享表征和/或语种特定表征,对初始编码器进行预训练,得到预训练编码器;基于预训练编码器,构建预训练识别模型;对预训练识别模型进行有监督微调,得到语音识别模型。基于不同语种下语音的语种共享表征和/或语种特定表征,对初始编码器进行预训练,得到预训练编码器,可以抑制语种间串扰问题,指导初始编码器学习更易于适应不同语种的语音表征,在不显著增加模型参数量和计算量的情况下,既能提升低资源语种识别性能,又能保持高资源语种性能相较于单语模型不降,从而提供一个高效、准确的多语种语音识别模型。

Patent Agency Ranking