-
公开(公告)号:CN111081221B
公开(公告)日:2022-10-14
申请号:CN201911342455.0
申请日:2019-12-23
Applicant: 合肥讯飞数码科技有限公司
IPC: G10L15/06
Abstract: 本申请提供了一种训练数据选择方法、装置、电子设备及计算机存储介质,首先将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;接着,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;然后,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;最后,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。可以根据信息熵数据和相对熵数据来选取对模型而言信息量较大的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
-
公开(公告)号:CN111159360A
公开(公告)日:2020-05-15
申请号:CN201911422174.6
申请日:2019-12-31
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/289 , G06Q50/26
Abstract: 本申请公开了一种获得讯询问话题分类模型、讯询问话题分类的方法和装置,该方法包括:首先,对样本讯询问笔录中样本问答对进行自然语言预处理,获得各个样本问句分词和各个样本答句分词;然后,根据各个样本问句分词及其对应的各个贡献度得分、各个样本答句分词及其对应的各个贡献度得分和样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型。由此可见,通过贡献度得分增加样本问答对的话题类别信息,加强讯询问话题分类的训练;且利用基于注意力机制的卷积神经网络,能够充分学习“强话题”分词与话题类别之间的关系,使得讯询问话题分类模型的话题分类效果更好,提高后续讯询问话题分类的正确率。
-
公开(公告)号:CN109461438A
公开(公告)日:2019-03-12
申请号:CN201811556515.4
申请日:2018-12-19
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请提出一种语音识别方法、装置、设备及存储介质,其中,该方法包括:提取待识别语音数据的语音特征;根据所述语音特征,确定所述待识别语音数据的语音内容的属性信息;根据所述语音特征,以及所述待识别语音数据的语音内容的属性信息,确定所述待识别语音数据的语音内容。上述语音识别的处理过程识别得到的内容包括语音内容的属性信息和具体的语音内容两方面的信息,可以有效避免由于无法区分语音内容的属性而出现识别混淆的现象,利于提升语音识别准确度。
-
-