一种基于多种特征的问题相似度计算方法
摘要:
本发明公开了一种基于多种特征的问题相似度计算方法,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。本发明采用多种特征增加了样本属性的多样性,提升了模型的泛化能力。同时利用软余弦距离将TF‑IDF与编辑距离、词语语义等信息进行融合,克服了词语之间的语义鸿沟,提高了相似度计算的准确率。
公开/授权文献
0/0