-
公开(公告)号:CN108538298B
公开(公告)日:2021-05-04
申请号:CN201810298845.1
申请日:2018-04-04
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/22 , G06F16/332 , G06F16/33
Abstract: 本发明实施例提供了一种语音唤醒方法及装置,属于计算机应用技术领域。该方法包括:基于用户交互状态确定实时唤醒词库,实时唤醒词库用于下一次交互流程;获取用户输入的语音信号,基于实时唤醒词库及语音信号进行唤醒。由于在上一次交互流程中断后,可基于实时唤醒词库进行唤醒,再次进行唤醒时能够给予用户休眠无感知的用户体验,从而使得用户能够直接衔接休眠之前的交互场景,而不用重复之前已经执行过的交互流程。因此,可降低交互成本,并提高用户体验。
-
公开(公告)号:CN119400179A
公开(公告)日:2025-02-07
申请号:CN202411493818.1
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了语音翻译方法及装置、电子设备以及计算机可读存储介质,语音翻译方法包括:获取到待翻译语音的第一语音编码向量;对第一语音编码向量进行实时顺滑处理,得到第一语音编码向量对应的标记信息与分段信息;基于第一语音编码向量、标记信息、分段信息与至少一个提示词生成具有要点信息且顺滑的第二语音编码向量;对第二语音编码向量进行解码,得到目标语音;其中,待翻译语音与目标语音对应的语种不同。本申请能够基于要点信息对源语音进行翻译,从而提高翻译的流畅性与准确性,继而提高用户体验。
-
公开(公告)号:CN117636845A
公开(公告)日:2024-03-01
申请号:CN202311595931.6
申请日:2023-11-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,具体实现方案为:基于第i帧音频的标签状态确定跳帧数;其中,i为正整数;利用所述跳帧数对所述第i帧音频进行跳帧解码处理,得到目标音频帧对应的非空白标签特征;其中,所述目标音频帧表示第i+1帧音频之前的标签状态为非空白标签的音频帧;基于所述第i+1帧音频和所述目标音频帧对应的非空白标签特征,预测所述第i+1帧音频的标签状态;根据所述第i+1帧音频的标签状态确定所述第i+1帧音频的语音识别结果。根据本申请的技术方案,能够显著提升推理速度,从而提高语音识别的效率。
-
公开(公告)号:CN111462759B
公开(公告)日:2024-02-13
申请号:CN202010249826.7
申请日:2020-04-01
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种说话人标注方法、装置、设备及存储介质,该方法包括:获取待标注语音数据的声学特征;至少根据所述待标注语音数据的声学特征、已标注语音数据中出现过的说话人的特征,标注所述待标注语音数据的说话人;其中,所述已标注语音数据中出现过的说话人的特征,基于在对所述已标注语音数据进行说话人标注过程中学习到的说话人与其语音数据的声学特征之间的关联联系,所确定。采用上述方法能够实现对语音数据的说话人标注,并且能够保证较高的说话人标注准确度。
-
公开(公告)号:CN111462759A
公开(公告)日:2020-07-28
申请号:CN202010249826.7
申请日:2020-04-01
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种说话人标注方法、装置、设备及存储介质,该方法包括:获取待标注语音数据的声学特征;至少根据所述待标注语音数据的声学特征、已标注语音数据中出现过的说话人的特征,标注所述待标注语音数据的说话人;其中,所述已标注语音数据中出现过的说话人的特征,基于在对所述已标注语音数据进行说话人标注过程中学习到的说话人与其语音数据的声学特征之间的关联联系,所确定。采用上述方法能够实现对语音数据的说话人标注,并且能够保证较高的说话人标注准确度。
-
公开(公告)号:CN119832897A
公开(公告)日:2025-04-15
申请号:CN202510278032.6
申请日:2025-03-10
Applicant: 科大讯飞股份有限公司
IPC: G10L15/02 , G10L15/04 , G10L15/18 , G10L21/007 , G06F40/58
Abstract: 本申请公开了一种音频语种转换方法、系统和相关装置,该方法包括:获取目标对象的初始音频流,确定所述初始音频流对应的初始音频特征、以及所述初始音频流对应的当前语种;基于所述初始音频特征和所述当前语种,获取当前转换轮次对应的目标特征片段;其中,不同转换轮次对应的所述目标特征片段基于所述初始音频特征的语义进行分割;确定至少一个转换语种,基于所述当前语种和所述目标特征片段,生成与所述转换语种匹配的转换音频。通过上述方式,本申请能够提高音频跨语种转换的准确性。
-
公开(公告)号:CN119495310A
公开(公告)日:2025-02-21
申请号:CN202411486918.1
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: G10L21/007 , G10L15/26 , G10L15/00 , G10L13/08 , G06F40/58
Abstract: 本申请公开了一种音频播报的调节方法、系统和相关装置,该方法包括:获取目标对象的初始音频,确定所述初始音频对应的翻译文本;获取所述初始音频对应的第一参考时长和所述翻译文本对应的第二参考时长;基于所述翻译文本、所述第一参考时长和所述第二参考时长,生成调节后的转换音频。通过上述方式,本申请能够提高音频播报的灵活性以及提升用户体验感。
-
公开(公告)号:CN117894300A
公开(公告)日:2024-04-16
申请号:CN202311870857.4
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种样本音频数据的获取方法、语音识别方法及相关装置。该方法包括:获取目标音频数据的标注文本和至少两个参考文本,标注文本是基于目标音频数据的字幕确定的,各参考文本是分别利用不同的语音识别模型对目标音频数据进行识别得到的;基于标注文本和至少两个参考文本之间的比对结果,确定目标音频数据的类型,类型表征标注文本的准确性或者目标音频数据的语音识别难度;对目标音频数据执行与类型匹配的处理,并将经处理后的目标音频数据作为用于对目标语音识别模型进行训练的样本音频数据。上述方案,能够提高获取对目标语言识别模型训练的样本音频数据的效率。
-
公开(公告)号:CN117688949A
公开(公告)日:2024-03-12
申请号:CN202311384913.3
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58 , G10L15/00 , G10L15/22 , G10L15/26 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/098
Abstract: 本申请公开了一种数据处理方法及相关装置、设备和存储介质,其中,数据处理方法包括:获取待处理数据,并获取待处理数据的目标任务;其中,目标任务为语音识别、语音翻译、文本翻译中任一者;基于待处理数据进行识别,得到待处理数据的数据类型;将待处理数据输入至与数据类型匹配的编码网络进行编码,至少得到待处理数据的编码特征;至少将待处理数据的编码特征和目标任务输入至解码网络进行解码,得到对待处理数据执行目标任务之后的目标文本。上述方案,能够在尽可能地降低系统复杂度的前提下,实现对语音/文本的自适应处理。
-
公开(公告)号:CN114333794A
公开(公告)日:2022-04-12
申请号:CN202111574805.3
申请日:2021-12-21
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音唤醒方法、装置、电子设备和存储介质,其中方法包括:对实时语音流进行时延唤醒检测,得到时延唤醒检测结果,时延唤醒检测结果对应的语音帧与实时语音流对应的语音帧相差预设帧数;若时延唤醒检测结果为预唤醒,则对实时语音流进行实时唤醒检测,基于实时唤醒检测所得的实时唤醒检测结果进行语音唤醒,实时唤醒检测结果对应的语音帧与实时语音流对应的语音帧相同,克服了传统方案中无法兼顾语音唤醒的实时性和唤醒效果的缺陷,能够在无损唤醒效果的前提下,缩短响应时延,从而实现语音唤醒的唤醒效果与实时性的兼顾;并且,通过预唤醒实现时延唤醒检测向实时唤醒检测的切换,使得对于实时语音流的唤醒检测能够平滑有序。
-
-
-
-
-
-
-
-
-