-
公开(公告)号:CN119943039A
公开(公告)日:2025-05-06
申请号:CN202510423624.2
申请日:2025-04-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、系统、设备、介质及产品,涉及语音处理技术领域,其中方法包括:根据当前语音数据流中各语音片段的时频特征,对各所述语音片段进行下采样,得到待识别语音序列;对所述待识别语音序列中的各数据单元进行编码,并将编码完成的数据单元对应的编码特征缓存至目标缓存区间;通过解码线程异步从所述目标缓存区间中加载多个目标编码特征,并对多个所述目标编码特征进行解码,得到所述当前语音数据流的实时语音识别结果。本发明实现通过动态下采样和多线程异步并发处理的机制进行语音识别,可有效保障在有限资源的条件下,也能有效提升识别精度、实时性和能效。
-
公开(公告)号:CN119694302A
公开(公告)日:2025-03-25
申请号:CN202411769405.1
申请日:2024-12-04
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种多语种语音识别模型训练方法及相关装置,涉及语音识别技术领域,包括:预先构建包含第一训练分支和第二训练分支的多语种语音识别模型训练模型,其中,第一训练分支和第二训练分支均由编码器和解码器组成,第一训练分支和第二训练分支共用解码器和部分编码器;通过语音文本有监督训练数据以及纯文本训练数据,对第一训练分支和第二训练分支进行多任务联合训练,得到训练好的第一训练分支作为多语种语音识别模型。该方案能够降低模型训练的计算开销,提高训练数据的利用率,从而在有效降低训练周期和减少有监督训练数据的情况下,训练得到一个高效、准确的多语种语音识别模型,进而提升多语种语音识别的效果。
-
公开(公告)号:CN119541495A
公开(公告)日:2025-02-28
申请号:CN202411461438.X
申请日:2024-10-18
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,语音识别方法包括:获取当前轮次的第一解码特征;其中,当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息;获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率,并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合,得到第二解码特征;基于第二解码特征进行解码,得到当前轮次所输出的解码字符,并返回获取当前轮次的第一解码特征的步骤进行迭代,直至最新输出的解码字符表征语音识别结束为止,基于各个轮次的解码字符,得到待识别语音的识别文本。上述方案,能够提升语音识别的效率和准确性,特别是流式语音识别的效率和准确性。
-
公开(公告)号:CN119397342A
公开(公告)日:2025-02-07
申请号:CN202411202546.5
申请日:2024-08-29
Applicant: 科大讯飞股份有限公司
IPC: G06F18/241 , G06F18/2433 , G06N3/0464
Abstract: 本申请公开了一种故障预测方法及相关装置、设备和存储介质,其中,故障预测方法包括:获取待测设备在运行过程中关于若干种模态的采集数据;基于若干种模态采集数据各自的跳变检测结果,调整若干种模态各自的注意力参数;基于若干种模态各自的注意力参数,得到待测设备的目标数据特征;基于目标数据特征进行预测,得到待测设备的故障预测结果;其中,故障预测结果至少包括待测设备分别存在若干种预设故障类型的可能性。上述方案,能够提高设备故障预测的实时性和精确性。
-
公开(公告)号:CN118538221A
公开(公告)日:2024-08-23
申请号:CN202410507743.1
申请日:2024-04-25
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G06F40/232
Abstract: 本申请提供了语音识别方法、装置、设备、存储介质及程序产品,该方法包括:在第i个语音段的识别结果中将置信度小于置信度阈值的实体关键词进行标注,得到对应的第一待纠错文本,并将第一待纠错文本添加至待纠错文本集合;将第i+k个语音段的语音编码和待纠错文本集合输入大语言模型,以使大语言模型对第i+k个语音段的语音编码进行解码,以及对待纠错文本集合进行纠错;在第一待纠错文本对应的纠错结果中的实体关键词的置信度均不小于置信度阈值的情况下,将第一待纠错文本对应的纠错结果确定为第i个语音段的更新后识别结果,并将第一待纠错文本移出待纠错文本集合。根据本申请的技术方案,能够有效提升长语音中的实体关键词识别的准确性。
-
公开(公告)号:CN117636845A
公开(公告)日:2024-03-01
申请号:CN202311595931.6
申请日:2023-11-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,具体实现方案为:基于第i帧音频的标签状态确定跳帧数;其中,i为正整数;利用所述跳帧数对所述第i帧音频进行跳帧解码处理,得到目标音频帧对应的非空白标签特征;其中,所述目标音频帧表示第i+1帧音频之前的标签状态为非空白标签的音频帧;基于所述第i+1帧音频和所述目标音频帧对应的非空白标签特征,预测所述第i+1帧音频的标签状态;根据所述第i+1帧音频的标签状态确定所述第i+1帧音频的语音识别结果。根据本申请的技术方案,能够显著提升推理速度,从而提高语音识别的效率。
-
公开(公告)号:CN117610502A
公开(公告)日:2024-02-27
申请号:CN202311363190.9
申请日:2023-10-19
Applicant: 科大讯飞股份有限公司
IPC: G06F40/166 , G06F40/186 , G06N20/00
Abstract: 本申请公开了一种目标文本生成方法、系统以及相关装置,该方法包括:响应于用户确认的文本类别和文本描述内容,获取与文本类别和文本描述内容匹配的至少一个文本要素;获取每个文本要素对应的文本段落;其中,文本段落至少与文本描述内容和文本要素相关;基于文本描述内容和用户确认的所有文本段落,生成目标文本。上述方案,能够提高目标文本生成的精度。
-
公开(公告)号:CN117253473A
公开(公告)日:2023-12-19
申请号:CN202310998098.3
申请日:2023-08-07
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:获取待识别语音,并获取语音识别模型;基于语音识别模型对待识别语音中音频帧进行识别,得到待识别语音的识别文本;其中,语音识别模型至少基于样本识别文本与语音识别模型对样本语音的预测识别文本之间的差异调整网络参数,预测识别文本中的预测解码字符基于语音识别模型对目标音频帧和目标字符进行解码预测得到,目标音频帧为样本语音中对齐于样本识别文本中样本字符的样本音频帧,目标字符在样本识别文本中位于对齐于目标音频帧的样本字符之前。上述方案,能够尽可能地减少语音识别模型的显存使用量,特别是在模型训练过程,以提升语音识别模型的处理速度。
-
公开(公告)号:CN117116292A
公开(公告)日:2023-11-24
申请号:CN202311058371.0
申请日:2023-08-21
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种音频检测方法、装置、电子设备及存储介质。音频检测方法包括:提取待检测音频数据的第一声学特征数据;基于第一声学特征数据,检测待检测音频数据的篡改类别;在篡改类别为目标篡改类别的情况下,利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。本发明适用于检测不同篡改类别的音频数据,提高音频检测的效果。
-
公开(公告)号:CN116719914A
公开(公告)日:2023-09-08
申请号:CN202310492886.5
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/205 , G06F40/30 , G06N3/0442 , G06N3/045 , G06N3/0455 , G06N3/08 , G10L15/26 , G10L15/18
Abstract: 本申请公开了一种文本提取方法、系统及相关装置,该方法包括:获取待处理文本和提取意图;其中,所述提取意图用于指示至少一种预设提炼需求;基于所述提取意图对所述待处理文本进行编码,得到所述待处理文本对应的句级特征和段级特征;其中,所述句级特征与所述待处理文本中的语句对应,所述段级特征与所述待处理文本中的段落对应;对所述句级特征和所述段级特征进行解码,得到与所述提取意图指示的所述预设提炼需求相匹配的目标文本。通过上述方式,本申请能够提高获取目标文本的效率和准确性。
-
-
-
-
-
-
-
-
-