-
公开(公告)号:CN109344236B
公开(公告)日:2020-09-04
申请号:CN201811041071.0
申请日:2018-09-07
Applicant: 暨南大学
IPC: G06F16/332 , G06F40/30 , G06F40/211 , G06F16/33
Abstract: 本发明公开了一种基于多种特征的问题相似度计算方法,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。本发明采用多种特征增加了样本属性的多样性,提升了模型的泛化能力。同时利用软余弦距离将TF‑IDF与编辑距离、词语语义等信息进行融合,克服了词语之间的语义鸿沟,提高了相似度计算的准确率。
-
公开(公告)号:CN109344236A
公开(公告)日:2019-02-15
申请号:CN201811041071.0
申请日:2018-09-07
Applicant: 暨南大学
IPC: G06F16/332 , G06F17/27
Abstract: 本发明公开了一种基于多种特征的问题相似度计算方法,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。本发明采用多种特征增加了样本属性的多样性,提升了模型的泛化能力。同时利用软余弦距离将TF-IDF与编辑距离、词语语义等信息进行融合,克服了词语之间的语义鸿沟,提高了相似度计算的准确率。
-