获得讯询问话题分类模型、讯询问话题分类的方法和装置

    公开(公告)号:CN111159360B

    公开(公告)日:2022-12-02

    申请号:CN201911422174.6

    申请日:2019-12-31

    Abstract: 本申请公开了一种获得讯询问话题分类模型、讯询问话题分类的方法和装置,该方法包括:首先,对样本讯询问笔录中样本问答对进行自然语言预处理,获得各个样本问句分词和各个样本答句分词;然后,根据各个样本问句分词及其对应的各个贡献度得分、各个样本答句分词及其对应的各个贡献度得分和样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型。由此可见,通过贡献度得分增加样本问答对的话题类别信息,加强讯询问话题分类的训练;且利用基于注意力机制的卷积神经网络,能够充分学习“强话题”分词与话题类别之间的关系,使得讯询问话题分类模型的话题分类效果更好,提高后续讯询问话题分类的正确率。

    关键词模型及解码网络构建方法、检测方法及相关设备

    公开(公告)号:CN111540363A

    公开(公告)日:2020-08-14

    申请号:CN202010312979.1

    申请日:2020-04-20

    Abstract: 本申请提供了一种关键词模型及解码网络构建方法、检测方法及相关设备,其中,关键词模型构建方法可以包括:从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息;根据关键词列表中各关键词分别对应的模型信息,生成源域的关键词模型;利用关键词列表中各关键词的语音样本,以源域关键词模型为基础模型,训练得到目标域的关键词模型。本申请提供的关键词模型构建方法使用数量较少的关键词语音样本即可构建出性能较佳的关键词模型。

    自动声纹建模入库方法、装置以及设备

    公开(公告)号:CN111414511A

    公开(公告)日:2020-07-14

    申请号:CN202010219084.3

    申请日:2020-03-25

    Abstract: 本发明公开了一种自动声纹建模入库方法、装置以及设备。本发明的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的语料。本发明无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

    关键词模型及解码网络构建方法、检测方法及相关设备

    公开(公告)号:CN111540363B

    公开(公告)日:2023-10-24

    申请号:CN202010312979.1

    申请日:2020-04-20

    Abstract: 本申请提供了一种关键词模型及解码网络构建方法、检测方法及相关设备,其中,关键词模型构建方法可以包括:从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息;根据关键词列表中各关键词分别对应的模型信息,生成源域的关键词模型;利用关键词列表中各关键词的语音样本,以源域关键词模型为基础模型,训练得到目标域的关键词模型。本申请提供的关键词模型构建方法使用数量较少的关键词语音样本即可构建出性能较佳的关键词模型。

    错别词识别方法、相关设备及可读存储介质

    公开(公告)号:CN111209748B

    公开(公告)日:2023-10-24

    申请号:CN201911293645.8

    申请日:2019-12-16

    Abstract: 本申请公开了一种错别词识别方法、相关设备及可读存储介质,待识别的原始文本可能由于某个字或某几个字书写错误导致该原始文本中出现连续的字,在本申请中,通过获取原始文本中的出现连续的字组合生成原始字子串,并根据原始字子串,获取与原始文本对应的新增多字词,通过新增多字词可以确定出原始文本中对应新增多字词的某几个连续的字,该某几个连续的字则有可能是原始文本中的错别词。因此,基于本申请的方案,可以实现对文本中的错别词的识别。

    一种语音识别方法、装置、设备及存储介质

    公开(公告)号:CN109461438B

    公开(公告)日:2022-06-14

    申请号:CN201811556515.4

    申请日:2018-12-19

    Abstract: 本申请提出一种语音识别方法、装置、设备及存储介质,其中,该方法包括:提取待识别语音数据的语音特征;根据所述语音特征,确定所述待识别语音数据的语音内容的属性信息;根据所述语音特征,以及所述待识别语音数据的语音内容的属性信息,确定所述待识别语音数据的语音内容。上述语音识别的处理过程识别得到的内容包括语音内容的属性信息和具体的语音内容两方面的信息,可以有效避免由于无法区分语音内容的属性而出现识别混淆的现象,利于提升语音识别准确度。

    错别词识别方法、相关设备及可读存储介质

    公开(公告)号:CN111209748A

    公开(公告)日:2020-05-29

    申请号:CN201911293645.8

    申请日:2019-12-16

    Abstract: 本申请公开了一种错别词识别方法、相关设备及可读存储介质,待识别的原始文本可能由于某个字或某几个字书写错误导致该原始文本中出现连续的字,在本申请中,通过获取原始文本中的出现连续的字组合生成原始字子串,并根据原始字子串,获取与原始文本对应的新增多字词,通过新增多字词可以确定出原始文本中对应新增多字词的某几个连续的字,该某几个连续的字则有可能是原始文本中的错别词。因此,基于本申请的方案,可以实现对文本中的错别词的识别。

    训练数据选择方法、装置、电子设备及计算机存储介质

    公开(公告)号:CN111081221A

    公开(公告)日:2020-04-28

    申请号:CN201911342455.0

    申请日:2019-12-23

    Abstract: 本申请提供了一种训练数据选择方法、装置、电子设备及计算机存储介质,首先将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;接着,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;然后,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;最后,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。可以根据信息熵数据和相对熵数据来选取对模型而言信息量较大的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。

    自动声纹建模入库方法、装置以及设备

    公开(公告)号:CN111414511B

    公开(公告)日:2023-08-22

    申请号:CN202010219084.3

    申请日:2020-03-25

    Abstract: 本发明公开了一种自动声纹建模入库方法、装置以及设备。本发明的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的语料。本发明无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

Patent Agency Ranking