-
公开(公告)号:CN119832896A
公开(公告)日:2025-04-15
申请号:CN202411938659.1
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
IPC: G10L15/02 , G10L15/06 , G10L25/30 , G10L25/03 , G06F18/213 , G06F18/214 , G06F18/25
Abstract: 本申请公开了一种语音识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音并提取其目标声学特征;然后将该目标声学特征输入至预先构建的语音识别模型,识别得到目标语音的语音热词识别结果;其中,语音识别模型包括音频编码器、热词编码器和解码器;解码器包括热词混合专家适配器和注意力机制网络。由于本申请是先基于适配器,利用样本语音数据及其对应的文本标注结果和样本热词文本,对端到端语音识别大模型进行训练生成了语音识别模型,不仅提高了模型训练效率并降低了训练成本,而且也有效提高了模型的识别准确度,这样,利用该语音识别模型对目标语音进行语音热词识别时,可以有效提高识别结果的效率和准确率。
-
公开(公告)号:CN119495285A
公开(公告)日:2025-02-21
申请号:CN202411486919.6
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种音频语种转换方法、系统和相关装置,该方法包括:获取目标对象的初始音频流,确定所述初始音频流对应的初始音频特征、以及所述初始音频流对应的当前语种;基于所述初始音频特征和所述当前语种,获取当前转换轮次对应的目标特征片段;其中,不同转换轮次对应的所述目标特征片段基于所述初始音频特征的语义进行分割;确定至少一个转换语种,基于所述当前语种和所述目标特征片段,生成与所述转换语种匹配的转换音频。通过上述方式,本申请能够提高音频跨语种转换的准确性。
-
公开(公告)号:CN114242065B
公开(公告)日:2025-02-14
申请号:CN202111674783.8
申请日:2021-12-31
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本发明提供了一种语音唤醒方法及装置、语音唤醒模块的训练方法及装置。该语音唤醒方法包括:获取待识别语音信号,其中,待识别语音信号包括唤醒词;利用声学模型对待识别语音信号进行唤醒词识别,获得唤醒词识别结果,其中,声学模型包括整词节点,整词节点以唤醒词的词向量为权重;根据唤醒词识别结果进行语音唤醒,能够提高唤醒效果。
-
公开(公告)号:CN119400169A
公开(公告)日:2025-02-07
申请号:CN202411493813.9
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、电子设备及计算机可读存储介质。其中,方法包括:获取音频片段;对音频片段进行表征提取,得到音频片段的多个初始高阶语音表征,并对各初始高阶语音表征进行音素分类,确定初始音素集;利用基于专有词汇偏置列表构建得到的目标数据库中的各专有词汇音素集匹配初始音素集中的音素,得到音频片段中的至少一个目标专有词汇的目标高阶语音表征;替换目标专有词汇的初始高阶语音表征为目标高阶语音表征,形成音频片段的高阶语音表征集;对高阶语音表征集进行翻译,得到音频片段的目标翻译文本。借助音素级专有词汇激励可以缓解语音翻译任务中不同应用场景下由于发音和口音差异带来的泛化性问题。
-
公开(公告)号:CN119107978A
公开(公告)日:2024-12-10
申请号:CN202411361900.9
申请日:2024-09-27
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种发动机故障诊断方法、装置、电子设备和存储介质,其中方法包括:获取待诊断车辆上发动机的音频数据,以及驾驶员的语音数据;对语音数据对应的转写文本进行信息抽取,得到关键词和语义信息;以关键词和语义信息为参考,指导音频数据进行特征提取,使得特征提取过程更关注与故障有关的音频片段,减少无关的信息,得到准确有效的音频特征;基于音频特征进行故障诊断,得到发动机的故障诊断结果,实现了全面、准确的发动机故障诊断,提升了诊断效率,拓宽了诊断范围,降低了对专业设备和人员的依赖,使得车辆能更方便地进行自我诊断,从而降低诊断成本,提高行车安全。
-
公开(公告)号:CN118690748A
公开(公告)日:2024-09-24
申请号:CN202411173918.6
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/242 , G06F40/30
Abstract: 本申请公开了一种英语固定搭配识别方法及相关装置,先获取以目标英语单词开头且目标英语单词后面包含第一单词的目标英语单词序列,再确定第一单词的词性是否为目标词性;如果第一单词的词性是目标词性,则确定目标英语单词序列是英语固定搭配。考虑到虽然英语的语言多样性、语境复杂性以及文化差异等因素,会导致英语固定搭配的形式可能发生变化,但是,不管怎样变化,英语固定搭配必须符合特定的语法和语义规则,而对于以目标单词开头的英语固定搭配,目标单词后面的词的词性是需要满足条件,才能与特定的语法和语义规则匹配,因此,基于目标单词后的第一单词的词性是否为目标词性,确定目标英语单词序列是否为英语固定搭配,准确率更高。
-
公开(公告)号:CN118098241A
公开(公告)日:2024-05-28
申请号:CN202410123208.6
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/06 , G10L15/18 , G06F16/332 , G06F40/186
Abstract: 本申请公开了一种课堂纪要生成方法、装置、相关设备及计算机程序产品,本申请借助了人工智能大模型强大的自然语言理解及文本生成能力,利用人工智能大模型基于课堂教学课件及课堂录音转写文本生成课堂纪要,进而响应于课堂纪要的展示请求,对生成的课堂纪要进行展示,实现了基于人工智能大模型的自动端到端生成并展示课堂纪要,无需依赖人工整理课堂纪要,降低了人工成本。并且,鉴于人工智能大模型在大规模预训练数据上习得的知识,及强大的自然语言理解、逻辑推理及文本生成能力,可以利用获取的课堂教学课件及课堂录音转写文本,生成高质量的课堂纪要,即保证课堂纪要的准确性,便于学生参照课堂纪要进行课堂知识的回顾。
-
公开(公告)号:CN117995197A
公开(公告)日:2024-05-07
申请号:CN202410123569.0
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/183
Abstract: 本申请公开了一种语音识别方法、装置、相关设备及计算机程序产品,在对目标场景下的待识别语音进行识别时,获取了该目标场景下与待识别语音对应的初始参考信息,示例如对于会议录音识别场景可以获取会议主题信息等作为初始参考信息。进一步,考虑到初始参考信息可能不够丰富,本申请进一步借助了人工智能大模型强大的自然语言理解及文本生成能力,指示大模型基于该初始参考信息扩展生成目标场景下所可能产生的音频转写文本,仍以会议录音识别场景为例,可以调用大模型,让大模型基于会议主题信息,生成本次会议可能产生的会议内容,作为扩展文本,以扩展文本辅助对待识别语音进行语音识别,提升语音识别的准确率。
-
公开(公告)号:CN111583909B
公开(公告)日:2024-04-12
申请号:CN202010418728.1
申请日:2020-05-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,本申请配置有热词库,在对待识别语音进行识别过程,基于待识别语音及热词库,确定当前解码时刻所需的音频相关特征,由于音频相关特征确定过程利用了热词信息,如果当前解码时刻的语音片段中包含某个热词,则确定的音频相关特征中能够包含该热词对应的完整音频信息,进一步基于该音频相关特征从热词库中确定当前解码时刻所需的热词相关特征,热词相关特征能够准确表示当前解码时刻的语音片段是否包含热词以及具体包含哪个热词,最终基于音频相关特征和热词相关特征,确定待识别语音在当前解码时刻的识别结果,该识别结果对热词的识别更加准确。
-
公开(公告)号:CN116959430A
公开(公告)日:2023-10-27
申请号:CN202310798449.6
申请日:2023-06-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语音识别方法、装置、电子设备及存储介质,涉及语音识别技术领域。该语音识别方法可以包括:获取目标语音的第一类特征和第二类特征;其中,所述第一类特征为表征语音内容的声学特征,所述第二类特征为表征情绪的声学特征;根据所述第一类特征和所述第二类特征,确定对所述目标语音的语音识别结果,其中,所述语音识别结果中包括添加有标点符号的文本内容。本申请提供的技术方案能够提高语音识别中标点符号标记的准确性。
-
-
-
-
-
-
-
-
-