-
公开(公告)号:CN115798463A
公开(公告)日:2023-03-14
申请号:CN202211370747.7
申请日:2022-11-03
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;基于一体化框架中的语音识别模块,对待识别语音进行语音识别,得到待识别语音的声学特征和识别结果采样特征;基于一体化框架中的纠错模块,应用声学特征和识别结果采样特征进行文本纠错,得到待识别语音的语音识别结果;一体化框架是基于样本语音,以及样本语音的标签文本训练得到的。本发明提供的方法、装置、电子设备和存储介质,经由语音识别和文本纠错得到的语音识别结果具备更强的语义合理性;并且,在一体化框架下对语音识别任务和文本纠错任务进行联合训练,也无需额外获取携带声学特征的平行语料,降低了训练成本。
-
公开(公告)号:CN114242066A
公开(公告)日:2022-03-25
申请号:CN202111675104.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音处理方法、语音处理模型的训练方法、设备及介质,该语音处理方法包括:基于多路音频信号获取第一声学特征信息,其中,第一声学特征信息融合了多路音频信号的特征,多路音频信号是根据至少两个音频采集设备采集的原始音频信号获取的;对第一声学特征信息进行分类处理,得到空间位置信息,空间位置信息用于表征声源方向。本申请的技术方案能够降低级联误差、提高声源定位的准确度以及提高运算速度。
-
公开(公告)号:CN111145778A
公开(公告)日:2020-05-12
申请号:CN201911193451.0
申请日:2019-11-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种音频数据的处理方法、装置、电子设备及计算机存储介质,方法包括:检测到音频拼接指令;确定待拼接的N段原始音频特征序列,N为大于等于2的整数;根据所述N段原始音频特征序列生成参考音频特征序列,所述参考音频特征序列包括所述N段原始音频特征序列的全部音频帧;根据预设策略更新所述参考音频特征序列中的音频帧,得到目标音频特征序列。实施本申请实施例有利于提升拼接处的音频数据的完整性,使拼接处的音频过度更加自然。
-
公开(公告)号:CN110634487A
公开(公告)日:2019-12-31
申请号:CN201911017292.9
申请日:2019-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种双语种混合语音识别方法、装置、设备及存储介质,方法包括:获取目标语音,其中,目标语音为第一语种与第二语种的混合语音;利用预先建立的双语种混合语音识别模型对目标语音进行识别,获得多个候选识别文本以及多个候选识别文本分别对应的得分,其中,双语种混合语音识别模型能够确定出每个候选识别文本中每个文本单元的文本分类概率和语种分类概率,任一候选识别文本对应的得分根据该候选识别文本中每个文本单元的文本分类概率和语种分类概率确定;根据多个候选识别文本分别对应的得分,从多个候选识别文本中确定出目标语音的目标识别文本。本申请对双语种混合语音具有较好的识别效果,用户体验较好。
-
公开(公告)号:CN109062900A
公开(公告)日:2018-12-21
申请号:CN201810864720.0
申请日:2018-08-01
Applicant: 科大讯飞股份有限公司
CPC classification number: G06F17/2705 , G06F3/0233
Abstract: 本申请公开了一种朋友圈生成方法及装置,该方法包括:在获取到目标用户使用目标输入法输出的目标聊天记录后,若确定出目标聊天记录对应至少一个潜在好友,则判断该潜在好友是否为目标用户的真实聊天对象,若是,则可以将该潜在好友加入目标用户的输入法朋友圈,其中,潜在好友指的是目标用户使用目标聊天记录进行聊天的可能聊天对象。可见,本申请在获取到目标用户使用目标输入法输出的目标的聊天记录后,可以根据该聊天记录确定出目标用户的真实聊天对象并将其加入目标用户的输入法朋友圈,从而实现了基于目标用户使用目标输入法输出的聊天内容,生成目标用户的输入法朋友圈,以便后续可以基于输入法朋友圈提升输入法产品的娱乐性。
-
公开(公告)号:CN108122035A
公开(公告)日:2018-06-05
申请号:CN201611070244.2
申请日:2016-11-29
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种端到端建模方法及系统,该方法包括:确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;收集大量训练数据;确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;提取所述训练数据的特征序列;利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。利用本发明,可以提高建模的准确度。
-
公开(公告)号:CN119993163A
公开(公告)日:2025-05-13
申请号:CN202510454672.8
申请日:2025-04-11
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:基于待识别语音进行特征编码,得到编码特征;基于大语言模型按照提示指令对编码特征进行自回归解码,得到待识别语音具备展现形式的识别文本;其中,提示指令包含识别指令和至少一种后处理指令,识别指令用于指示大语言模型执行语音识别,后处理指令用于指示大语言模型以具备展现形式为附加目标执行语音识别,各种后处理指令分别对应不同展现形式。上述方案,能够在尽可能地保证识别文本具备展现形式的前提之下,缩短语音识别的响应时间,减轻语音识别的计算负担,并提升语音识别的输出精度。
-
公开(公告)号:CN119865752A
公开(公告)日:2025-04-22
申请号:CN202411981891.3
申请日:2024-12-31
Applicant: 科大讯飞股份有限公司
IPC: H04R25/00 , G06N3/0464 , G06N3/0455
Abstract: 本发明提供一种设备参数调整模型的训练方法、设备参数调整方法及装置,其中方法包括:获取初始模型,基于初始模型的状态表示,确定初始设备参数;将初始设备参数发送至便携式辅助设备,得到环境声学特征和用户的行为特征;将环境声学特征和行为特征输入至初始模型,得到用户的动作概率分布;基于动作概率分布,对初始模型进行训练,得到设备参数调整模型。该方法中行为特征用于反映用户个性化习惯和偏好,环境声学特征用于反映便携式辅助设备的聆听环境信息,基于环境声学特征和行为特征进行后续初始模型训练,使得训练得到的设备参数调整模型可以个性化地调整便携式辅助设备的设备参数,提高用户的聆听效果,进而提高用户的满意度和使用体验。
-
公开(公告)号:CN119864026A
公开(公告)日:2025-04-22
申请号:CN202411972326.0
申请日:2024-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本说明书实施例提供了一种语音识别方法,该方法通过对第一语音信息进行语音识别,以确定第一语音信息对应的目标用户以及语音场景;然后基于语音场景对目标用户对应的黑白名单进行配置,该黑白名单用于对语音结束值进行调整;并响应于第二语音信息的触发,根据黑白名单对名单资源进行更新;进而通过更新后的名单资源确定第二语音信息对应的语音结束值,以基于语音结束值对第二语音信息进行识别。从而实现个性化的语音结束值配置过程,由于结合用户的语音特征进行黑白名单配置,并通过黑白名单进行名单资源的维护,使得语音结束值可以适配于不同的用户,提高用户语音输入后内容的完整性,提高语音识别的准确性。
-
公开(公告)号:CN119851664A
公开(公告)日:2025-04-18
申请号:CN202411938662.3
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/20 , G10L25/30 , G06F18/213 , G06F18/214 , G06F18/25
Abstract: 本申请公开了一种语音识别方法、装置、存储介质及设备,该方法包括:首先获取目标车辆的行驶数据,并从中提取出目标特征向量;其中,行驶数据包括目标车辆的自身状态信息和其所处的环境数据信息,再获取目标车辆上车载用户发出的目标语音,并对其进行初次识别,得到N个候选文本识别结果;然后将目标特征向量和N个候选文本识别结果输入语义置信度预测模型,预测得到N个候选文本识别结果各自对应的文本置信度预测结果,接着利用N个候选文本识别结果各自对应的文本置信度预测结果,对目标语音进行二次识别,以便从这N个候选文本识别结果中筛选出目标语音对应的最终识别结果,从而提高了识别准确率,也增强了车载用户的乘车体验及行车安全性。
-
-
-
-
-
-
-
-
-