一种语音唤醒方法及其相关设备
    1.
    发明公开

    公开(公告)号:CN114141233A

    公开(公告)日:2022-03-04

    申请号:CN202111493721.7

    申请日:2021-12-08

    Abstract: 本申请公开了一种语音唤醒方法及其相关设备,该方法包括:对于终端设备来说,在从语音流中实时地获取到当前语音段之后,对该当前语音段进行唤醒识别处理,得到当前唤醒识别结果;若该当前唤醒识别结果满足高门限唤醒条件,则触发唤醒指令,以唤醒该终端设备中某项服务项目;若该当前唤醒识别结果满足低门限唤醒条件,且至少一个历史唤醒识别结果中存在满足低门限唤醒条件的目标唤醒识别结果,则触发唤醒指令,以唤醒该终端设备中某项服务项目。如此能够有效地降低那些不易唤醒音频数据的唤醒难度,从而能够有效地提高唤醒率,进而有利于提高语音唤醒效果。

    一种引擎响应时间的分析方法及电子设备、存储介质

    公开(公告)号:CN112259108A

    公开(公告)日:2021-01-22

    申请号:CN202011033534.6

    申请日:2020-09-27

    Inventor: 张滔

    Abstract: 本发明公开了一种引擎响应时间的分析方法、电子设备以及存储介质,分析方法包括:向引擎输入预设语音段,其中,引擎装载有神经网络;获取预设语音段的真实尾端时间点、神经网络判定的预设语音段的预测尾端时间点以及引擎抛出的反馈尾端时间点;计算神经网络判定的预设语音段的预测尾端时间点分别与预设语音段的真实尾端时间点及引擎抛出的反馈尾端时间点的时间差;基于时间差,得出引擎响应时间的影响因素。通过此方法能够分析出引擎响应时间的影响因素,以便于后续能够根据不同的影响因素选择不同的优化方案进行优化,加快产品化的节奏。

    语音关键词识别方法、装置、电子设备和存储介质

    公开(公告)号:CN110610707A

    公开(公告)日:2019-12-24

    申请号:CN201910891598.0

    申请日:2019-09-20

    Inventor: 申凯 张滔

    Abstract: 本发明实施例提供一种语音关键词识别方法、装置、电子设备和存储介质,其中方法包括:提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量;任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率;将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型,得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果;所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量,以及所述样本词的关键词标识训练得到的。本发明实施例提供的方法、装置、电子设备和存储介质,能够提高识别精度,避免相似词的误判问题,提高响应准确率,优化用户体验。

    一种引擎响应时间的分析方法及电子设备、存储介质

    公开(公告)号:CN112259108B

    公开(公告)日:2024-05-31

    申请号:CN202011033534.6

    申请日:2020-09-27

    Inventor: 张滔

    Abstract: 本发明公开了一种引擎响应时间的分析方法、电子设备以及存储介质,分析方法包括:向引擎输入预设语音段,其中,引擎装载有神经网络;获取预设语音段的真实尾端时间点、神经网络判定的预设语音段的预测尾端时间点以及引擎抛出的反馈尾端时间点;计算神经网络判定的预设语音段的预测尾端时间点分别与预设语音段的真实尾端时间点及引擎抛出的反馈尾端时间点的时间差;基于时间差,得出引擎响应时间的影响因素。通过此方法能够分析出引擎响应时间的影响因素,以便于后续能够根据不同的影响因素选择不同的优化方案进行优化,加快产品化的节奏。

    一种解码网络的插词方法、装置、设备及存储介质

    公开(公告)号:CN110322884B

    公开(公告)日:2021-12-07

    申请号:CN201910614108.2

    申请日:2019-07-09

    Abstract: 本申请提供了一种解码网络的插词方法、装置、设备及存储介质,方法包括:获取目标词条集合,目标词条集合包括至少一条待插入词条;将目标词条集合中的词条拓展成三音素级网络,作为待插入三音素级网络;将待插入三音素级网络插入作为解码网络的目标三音素级网络,获得插词后的解码网络。本申请提供的方法可实现在用于语音识别的解码网络中插入词条,且本申请提供的方法内存占用小,插词效率高,用户体验较好。

    语音关键词识别方法、装置、电子设备和存储介质

    公开(公告)号:CN110610707B

    公开(公告)日:2022-04-22

    申请号:CN201910891598.0

    申请日:2019-09-20

    Inventor: 申凯 张滔

    Abstract: 本发明实施例提供一种语音关键词识别方法、装置、电子设备和存储介质,其中方法包括:提取待识别词对应的语音数据中每一帧的声学状态后验概率分布向量;任一帧的所述声学状态后验概率分布向量包括所述任一帧相对于多个声学状态的后验概率;将所述语音数据中每一帧的所述声学状态后验概率分布向量输入至关键词识别模型,得到所述关键词识别模型输出的所述待识别词对应的关键词识别结果;所述关键词识别模型是基于样本词中每一样本帧的样本声学状态后验概率分布向量,以及所述样本词的关键词标识训练得到的。本发明实施例提供的方法、装置、电子设备和存储介质,能够提高识别精度,避免相似词的误判问题,提高响应准确率,优化用户体验。

    语音唤醒方法、装置、电子设备和存储介质

    公开(公告)号:CN114333794A

    公开(公告)日:2022-04-12

    申请号:CN202111574805.3

    申请日:2021-12-21

    Abstract: 本发明提供一种语音唤醒方法、装置、电子设备和存储介质,其中方法包括:对实时语音流进行时延唤醒检测,得到时延唤醒检测结果,时延唤醒检测结果对应的语音帧与实时语音流对应的语音帧相差预设帧数;若时延唤醒检测结果为预唤醒,则对实时语音流进行实时唤醒检测,基于实时唤醒检测所得的实时唤醒检测结果进行语音唤醒,实时唤醒检测结果对应的语音帧与实时语音流对应的语音帧相同,克服了传统方案中无法兼顾语音唤醒的实时性和唤醒效果的缺陷,能够在无损唤醒效果的前提下,缩短响应时延,从而实现语音唤醒的唤醒效果与实时性的兼顾;并且,通过预唤醒实现时延唤醒检测向实时唤醒检测的切换,使得对于实时语音流的唤醒检测能够平滑有序。

    一种解码网络的插词方法、装置、设备及存储介质

    公开(公告)号:CN110322884A

    公开(公告)日:2019-10-11

    申请号:CN201910614108.2

    申请日:2019-07-09

    Abstract: 本申请提供了一种解码网络的插词方法、装置、设备及存储介质,方法包括:获取目标词条集合,目标词条集合包括至少一条待插入词条;将目标词条集合中的词条拓展成三音素级网络,作为待插入三音素级网络;将待插入三音素级网络插入作为解码网络的目标三音素级网络,获得插词后的解码网络。本申请提供的方法可实现在用于语音识别的解码网络中插入词条,且本申请提供的方法内存占用小,插词效率高,用户体验较好。

Patent Agency Ranking