-
公开(公告)号:CN119400181A
公开(公告)日:2025-02-07
申请号:CN202411635769.0
申请日:2024-11-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置,涉及语音识别技术领域,语音识别方法包括:获取目标语音数据;通过对目标语音数据进行初步语音识别,获取目标语音数据的字级别声学信息以及候选语音识别结果;将目标语音数据的字级别声学信息投射到大语言模型的表征空间中,得到目标语音数据的目标声学特征;利用大语言模型,辅以目标语音数据的候选语音识别结果,将目标语音数据的目标声学特征处理成文字序列,得到目标语音数据的语音识别结果。本申请公开的语音识别方法具有较好的识别效果。
-
公开(公告)号:CN118553249B
公开(公告)日:2024-12-13
申请号:CN202411022971.6
申请日:2024-07-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种音频识别方法、系统和相关装置,该方法包括:获取待识别音频;将所述待识别音频输入至目标识别模型,得到与所述待识别音频匹配的目标识别文本;其中,所述目标识别模型基于训练后的初始识别模型得到,所述初始识别模型包括参数共享的音频解析网络和文本解析网络,所述音频解析网络利用多个训练音频进行训练,所述文本解析网络利用多个训练文本进行训练,所述训练音频匹配有文本标签,所述训练文本匹配有类别标签。通过上述方式,本申请能够提高音频识别的准确性。
-
公开(公告)号:CN113314123B
公开(公告)日:2024-05-31
申请号:CN202110390273.1
申请日:2021-04-12
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音处理方法、电子设备及存储装置。该方法包括:采集第一语音数据;对第一语音数据进行分类,得到第一语音数据中至少部分帧语音数据所属的类别;基于至少部分帧语音数据所属的类别,得到第一语音数据的类别;基于第一语音数据,执行与类别对应的操作。上述方案,录音设备能够基于语音数据进行更智能、灵活的操作。
-
公开(公告)号:CN119107961A
公开(公告)日:2024-12-10
申请号:CN202411203986.2
申请日:2024-08-29
Applicant: 华为技术有限公司 , 科大讯飞股份有限公司
IPC: G10L21/013 , G10L25/30
Abstract: 本发明实施例公开了一种信息处理方法和设备,信息处理方法应用于包含信息处理模型的信息处理设备;所述方法包括:接收用户的第一信息,第一信息包含第一音频,第一音频为待修复音频;所述信息处理模型根据所述第一信息得到第二信息,所述第二信息包含所述第一音频对应的第一语义特征,所述第一语义特征为所述第一音频中第一帧数的音频进行语义修复后的语义特征;所述信息处理模型根据所述用户的声纹特征和所述第二信息得到第二音频。能够实现实时的声音修复。
-
公开(公告)号:CN118136045A
公开(公告)日:2024-06-04
申请号:CN202410096686.2
申请日:2024-01-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音特征提取方法及相关方法、装置、设备和存储介质,其中,语音特征提取方法包括:获取待处理语音;基于特征提取模型对多个语音通道中语音段进行特征提取,得到多个语音通道中各个语音段的语音特征;其中,特征提取模型采用样本语音集至少通过三种对比学习训练得到,样本语音集内包含来自多个样本多通道语音的样本语音段,三种对比学习包括:对比来自相同及不同样本多通道语音的样本语音段之间第一特征相似度、对比来自相同样本多通道语音中相同及不同通道的样本语音段之间第二特征相似度、对比来自相同样本多通道语音中相同及不同时序的样本语音段之间第三特征相似度。上述方案,能够提升对多通道语音的语音特征提取精度。
-
公开(公告)号:CN117252152A
公开(公告)日:2023-12-19
申请号:CN202311436138.1
申请日:2023-10-31
Applicant: 科大讯飞股份有限公司
IPC: G06F40/103 , G06F40/289 , G06F40/30
Abstract: 本发明提供一种文本规整方法、装置、电子设备和存储介质,其中方法包括:获取待规整的原始文本;提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示,所述文本表示、数字规整表示和标点预测表示在同一建模空间内;基于所述各文本单元的数字规整表示和标点预测表示,确定所述原始文本的规整文本。本发明提供的文本规整方法、装置、电子设备和存储介质,采用并行逻辑同时对原始文本分别进行数字规整和标点预测,由此避免了串行逻辑带来的错误累计,提升了文本规整的准确性。
-
公开(公告)号:CN112489651B
公开(公告)日:2023-02-17
申请号:CN202011378944.4
申请日:2020-11-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法和电子设备、存储装置,其中,语音识别方法包括:获取语音识别场景下采集到的原始音频和与语音识别场景相关的第一参考列表;对原始音频进行初始识别,得到初始识别文本;从第一参考列表中,筛选与初始识别文本满足第一预设条件的参考词语,得到第二参考列表;利用第二参考列表,对原始音频进行最终识别,得到最终识别文本。上述方案,能够提高语音识别准确性。
-
公开(公告)号:CN114155836A
公开(公告)日:2022-03-08
申请号:CN202111479624.2
申请日:2021-12-06
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、相关设备及可读存储介质。该方案中,通过预先构建一个解码网络,该解码网络包括主解码网络以及插入在该主解码网络中的热词解码网络,在获取待识别的语音信号之后,利用该解码网络对该语音信号进行解码,并在解码过程中,利用该热词解码网络对该语音信号进行热词激励,得到对应的语音识别文本。基于该方案,只需对语音信号进行一次解码处理,即可实现对热词的激励,因此,该方案能够提升热词的识别效率。
-
公开(公告)号:CN113314123A
公开(公告)日:2021-08-27
申请号:CN202110390273.1
申请日:2021-04-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音处理方法、电子设备及存储装置。该方法包括:采集第一语音数据;对第一语音数据进行分类,得到第一语音数据中至少部分帧语音数据所属的类别;基于至少部分帧语音数据所属的类别,得到第一语音数据的类别;基于第一语音数据,执行与类别对应的操作。上述方案,录音设备能够基于语音数据进行更智能、灵活的操作。
-
公开(公告)号:CN118553249A
公开(公告)日:2024-08-27
申请号:CN202411022971.6
申请日:2024-07-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种音频识别方法、系统和相关装置,该方法包括:获取待识别音频;将所述待识别音频输入至目标识别模型,得到与所述待识别音频匹配的目标识别文本;其中,所述目标识别模型基于训练后的初始识别模型得到,所述初始识别模型包括参数共享的音频解析网络和文本解析网络,所述音频解析网络利用多个训练音频进行训练,所述文本解析网络利用多个训练文本进行训练,所述训练音频匹配有文本标签,所述训练文本匹配有类别标签。通过上述方式,本申请能够提高音频识别的准确性。
-
-
-
-
-
-
-
-
-