-
公开(公告)号:CN119724187A
公开(公告)日:2025-03-28
申请号:CN202411981844.9
申请日:2024-12-31
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置,涉及语音处理技术领域,包括:在确定待识别语音数据的通用解码文本序列之后,先将通用解码文本序列转换为元素粒度更低的可泛化文本序列,再利用与可泛化文本序列中各元素对应的相似元素对可泛化文本序列进行扩充,得到相应粒度的扩充文本序列;并基于预设的长尾词汇语言模型对可泛化文本序列和扩充文本序列进行重贴分操作,得到长尾解码文本序列;最后,基于通用解码文本序列以及长尾解码文本序列,确定最终的语音识别结果。由于该方案能够得到长尾解码文本序列,因此能够提升最终的语音识别结果是长尾解码文本序列的可能性,因此,能够有效提升端到端语音识别模型的长尾词汇识别效果。
-
公开(公告)号:CN119694304A
公开(公告)日:2025-03-25
申请号:CN202510202865.4
申请日:2025-02-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种流式语音交互方法及相关装置、设备和存储介质,其中,流式语音交互方法包括:基于当前采集的第一流式语音进行第一分类,得到第一流式语音的第一预测类别;响应于第一预测类别为人声,至少基于第一流式语音进行第二分类,得到第一流式语音的第二预测类别;响应于第二预测类别为真实人声,至少基于第一流式语音进行第三分类,得到第一流式语音的第三预测类别;基于第三预测类别,对当前正在输出的机器对话内容执行目标交互操作。上述方案,能够尽可能地减少流式语音的误触发,提升流式语音交互的准确性。
-
公开(公告)号:CN119479620A
公开(公告)日:2025-02-18
申请号:CN202510026410.1
申请日:2025-01-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种流式语音交互方法及相关装置、设备和存储介质,其中,流式语音交互方法包括:对流式语音进行端点检测,并响应于检测到流式语音的起始端点,对流式语音执行滑窗操作,得到语音帧,基于语音帧进行特征提取,得到语音帧的语音特征;输入语音帧的语音特征至用于识别流式语音的语音识别系统,得到语音帧的识别结果,基于语音帧的编码特征进行分类预测,得到语音帧的分类结果;响应于分类结果表征语义结束,基于从起始端点至结束端点各个语音帧的识别结果,得到识别文本,至少基于识别文本由智能对话模型进行处理,生成得到回复文本;响应于分类结果表征语义未结束,继续返回执行滑窗操作。上述方案,能够提升流式语音交互的适时性。
-
公开(公告)号:CN119446119A
公开(公告)日:2025-02-14
申请号:CN202411486621.5
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: G10L15/00 , G10L15/02 , G10L15/18 , G10L25/51 , G06F40/263 , G06F18/2415 , G06F40/30 , G06N3/0455
Abstract: 本申请提出一种方言识别方法、装置、设备及计算机程序产品,该方法包括:对待识别方言语音进行编解码处理,得到语音解码特征;通过预先训练的语言模型对所述语音解码特征进行解码,得到方言识别结果;其中,所述语言模型的解码网络中的方言文本以及与该方言文本相同语义的普通话文本对应相同的语言模型概率。上述的方言识别方法能够提高方言识别效果。
-
公开(公告)号:CN118692469A
公开(公告)日:2024-09-24
申请号:CN202410673070.7
申请日:2024-05-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种标注文本的处理方法、装置、设备、介质及产品,其中,该方法包括:获取原始标注文本和原始标注文本对应的音频数据,原始标注文本中不包括目标符号;对音频数据进行端到端的语音识别,得到音频数据对应的第一音频识别结果,第一音频识别结果中包括目标符号;基于第一音频识别结果,对原始标注文本回填目标符号,得到目标标注文本,目标标注文本用于语音识别模型的端到端训练。该方案能够提高构建端到端标注文本的准确度和召回率。
-
公开(公告)号:CN118335084A
公开(公告)日:2024-07-12
申请号:CN202410507639.2
申请日:2024-04-25
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/183 , G10L15/28
Abstract: 本申请提出一种语音识别方法及相关装置,涉及语音识别技术领域。该语音识别方法可以包括:获取历史信息的第一编码信息;其中,所述历史信息包括:历史语音;获取第二编码信息;其中,所述第二编码信息包括待识别语音段的编码信息;将所述第一编码信息作为大语言模型的引导信息,通过所述大语言模型对所述第二编码信息进行解码,得到所述待识别语音段的语音识别结果;其中,所述语音识别结果包括与所述待识别语音段对应的文本信息。本申请提供的技术方案能够提升语音识别效果。
-
公开(公告)号:CN118053418A
公开(公告)日:2024-05-17
申请号:CN202410125915.9
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/07 , G10L15/16 , G10L15/26 , G06F40/58 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了一种语音处理方法及相关装置、设备和存储介质,其中,语音处理方法包括:获取交互场景下的待处理语音和多个预设语种;预测待处理语音所属的目标语种,并获取待处理语音分别属于各个预设语种的解码文本;选择所属语种与目标语种相同的解码文本,作为待处理语音的识别文本,并选择所属语种与目标语种不同的解码文本,分别作为待处理语音译为对应语种的翻译文本。上述方案,能够在免于手动切换的同时,提升语音识别与语音翻译的实时性和准确性。
-
公开(公告)号:CN117746865A
公开(公告)日:2024-03-22
申请号:CN202311872700.5
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音识别方法、模型训练方法、装置、设备及存储介质,对语音识别模型的训练过程包括两轮自监督预训练和一轮有监督的微调,在第二轮自监督预训练过程中,利用对应不同语义粒度的第一类伪标签计算语音识别模型的不同层的自监督损失,使得预训练的语音识别模型可以学习到不同粒度的语音内容信息,从而提高语音识别模型的识别准确率。
-
公开(公告)号:CN117743636A
公开(公告)日:2024-03-22
申请号:CN202311378717.5
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/735 , G06F16/75 , G06F16/783 , G06Q30/02 , G06F40/30 , G10L13/08 , G10L15/26
Abstract: 本申请公开了一种视频分析方法及相关装置、设备和存储介质,其中,视频分析方法包括:基于表征待分析目标的关键词,检索得到关于营销待分析目标的候选视频;其中,待分析目标包括目标产品、目标品牌中至少一者;响应于对候选视频的选择指令,确定被选择的候选视频作为目标视频,并确定目标视频中待分析的视频片段;基于视频片段进行分析,得到待分析目标的营销总结。上述方案,能够在尽可能地确保营销总结的针对性前提下,提升生成营销总结的自动化程度,以提升营销总结的生成效率。
-
公开(公告)号:CN117711386A
公开(公告)日:2024-03-15
申请号:CN202311750395.2
申请日:2023-12-19
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/00 , G10L15/183 , G10L15/22
Abstract: 本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质,其中方法包括:获取初始编码器;基于不同语种下语音的语种共享表征和/或语种特定表征,对初始编码器进行预训练,得到预训练编码器;基于预训练编码器,构建预训练识别模型;对预训练识别模型进行有监督微调,得到语音识别模型。基于不同语种下语音的语种共享表征和/或语种特定表征,对初始编码器进行预训练,得到预训练编码器,可以抑制语种间串扰问题,指导初始编码器学习更易于适应不同语种的语音表征,在不显著增加模型参数量和计算量的情况下,既能提升低资源语种识别性能,又能保持高资源语种性能相较于单语模型不降,从而提供一个高效、准确的多语种语音识别模型。
-
-
-
-
-
-
-
-
-