-
公开(公告)号:CN117831536A
公开(公告)日:2024-04-05
申请号:CN202311766209.4
申请日:2023-12-19
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种文本生成方法、装置、设备及存储介质,方法包括:获取包含特定语种语音内容的音频数据,并提取所述音频数据的音频特征;基于所述音频特征,识别所述特定语种语音内容对应的语音文本以及与所述语音文本对应的音标;基于所述语音文本和所述音标,生成语言学习讲解文本,所述语言学习讲解文本包括所述语音文本、所述音标,以及学习所述语音文本和所述音标的提示信息。本申请用以解决现有技术中在进行辅助语言学习时产生的效率低、效果差的缺陷,实现了快速、准确的完成语言学习。
-
公开(公告)号:CN115455946A
公开(公告)日:2022-12-09
申请号:CN202211080639.6
申请日:2022-09-05
Applicant: 科大讯飞股份有限公司
IPC: G06F40/232 , G06F40/30 , G06N3/04 , G06N3/08 , G10L15/26
Abstract: 本发明提供一种语音识别纠错方法、装置、电子设备和存储介质,其中方法包括:确定待纠错的语音数据的识别文本;基于所述识别文本中各字符在所述语音数据中的对齐位置,确定所述识别文本中各字符对应的声学特征;基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征,对所述识别文本进行纠错。本发明提供的语音识别纠错方法、装置、电子设备和存储介质,不仅仅使用到了识别文本中各字符的语义特征,还使用到了各字符对应的声学特征,相比于相关技术仅考虑语义特征,能够捕获到各字符的声学和语义两方面特征,充分利用多种特征来增强待纠错的识别文本的表示能力,从而提高了错误定位和错误纠正的准确性。
-
公开(公告)号:CN114495914A
公开(公告)日:2022-05-13
申请号:CN202210135438.5
申请日:2022-02-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、语音识别模型的训练方法及相关装置,所述语音识别方法包括:获得待识别语音;将所述待识别语音输入至训练后的语音识别模型中以获得输出文本;其中,训练所述语音识别模型所采用的总损失与首字延迟损失相关。通过上述方式,本申请能够降低首字延迟的时间。
-
公开(公告)号:CN119692368A
公开(公告)日:2025-03-25
申请号:CN202510205232.9
申请日:2025-02-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、系统和相关装置,该方法包括:获取至少一端的输入音频,确定所述输入音频的待翻译语种,将每端的所述输入音频分别作为待翻译音频,确定所述待翻译音频对应的初始识别文本;其中,所述初始识别文本匹配有至少一个识别语种;基于所述待翻译语种、所述初始识别文本及其对应的所述识别语种,获取与所述待翻译音频匹配的提示文本;其中,所述提示文本包括与所述识别语种匹配的转换语种;从候选词库中获取与所述初始识别文本匹配的参考词汇;基于所述初始识别文本、所述提示文本和所述参考词汇,获取所述待翻译音频对应的翻译文本。通过上述方式,本申请能够提高语音翻译的准确性和效率。
-
公开(公告)号:CN116612749A
公开(公告)日:2023-08-18
申请号:CN202310460643.3
申请日:2023-04-25
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、语音识别模型训练方法、设备和介质,该方法包括:获取待识别语音并获取经训练的语音识别模型;语音识别模型包括编码网络和解码网络;在利用编码网络对待识别语音进行编码的各个阶段中,先在目标语音属性下分类得到待识别语音所属的预测属性类别,再基于目标语音属性下预测属性类别进行编码,得到第一编码特征;基于解码网络对第一编码特征进行解码,得到待识别语音的识别文本;其中,语音识别模型至少基于第一损失进行调整,第一损失表征在目标语音属性下,样本语音标注的预设属性类别与被语音识别模型进行识别所得到的样本属性类别之间的差异。通过上述方式,本申请能够在提升语音识别准确率的同时,减少成本。
-
-
-
-