训练样本的获取方法和装置、计算机设备、存储介质

    公开(公告)号:CN114495940A

    公开(公告)日:2022-05-13

    申请号:CN202111630256.7

    申请日:2021-12-28

    Inventor: 佟欣欣 许丽

    Abstract: 本申请提供了一种训练样本的获取方法和装置、计算机设备、存储介质,解决了现有技术中训练样本的获取过程人工成本高和周期长的问题。其中,获取方法包括:基于n元语法模型确定用户确认文本中的第一文本句子,n元语法模型是基于预设文本训练得到的,n元语法模型包括多个n元数据单元,第一文本句子包括至少一个n元数据单元;基于第一文本句子确定目标文本句子;对目标文本句子对应的语音片段进行语音识别,得到识别文本;当识别文本和目标文本句子的匹配度满足第一预设条件时,确定标注有识别文本的语音片段为训练样本。

    语音唤醒识别方法及装置
    2.
    发明公开

    公开(公告)号:CN119763570A

    公开(公告)日:2025-04-04

    申请号:CN202411900452.5

    申请日:2024-12-23

    Abstract: 本发明提供一种语音唤醒识别方法及装置,所述方法包括:对唤醒语音数据进行唤醒词识别;在唤醒语音数据中存在唤醒词的情况下,确定唤醒语音数据中唤醒词所属目标语种,以及从唤醒语音数据中剪除唤醒词;基于目标语音识别模型,对剪除唤醒词后的唤醒语音数据进行语音识别,得到语音唤醒识别结果,目标语音识别模型用于识别目标语种下的语音数据。本发明提供的语音唤醒识别方法及装置,先对简短、明确且易于识别的唤醒语音数据进行唤醒词识别,确定唤醒意图的起始点,不仅可以减少计算量,也可以准确识别多个不同唤醒词,接着剪除唤醒语音数据中的唤醒词,从而可以避免唤醒词对后续识别用户唤醒意图的干扰,进一步提高语音唤醒识别精度。

    一种语音识别模型的训练方法、语音识别方法及相关产品

    公开(公告)号:CN115588426A

    公开(公告)日:2023-01-10

    申请号:CN202211193243.2

    申请日:2022-09-28

    Abstract: 本申请公开了一种语音识别模型的训练方法、语音识别方法及相关产品。该语音识别模型的训练方法包括:根据通用语音识别模型的基础结构裁剪得到子模型;通过第一语音数据和子模型构建待训练的语音识别模型;第一语音数据包括多种领域分别对应的领域语音数据;通过第一语音数据对待训练的语音识别模型进行训练,训练结束得到用于识别多种领域的领域语音数据的目标模型。以参数量较小的子模型构建并训练同样小参数量的模型,而无需对参数量较大的通用语音识别模型进行处理,即可通过精简的过程实现模型训练,减小训练代价。由于第一语音数据包括多种领域分别对应的领域语音数据,因此,训练出的目标模型可以实现对多种领域的领域语音数据的识别。

Patent Agency Ranking