-
公开(公告)号:CN110705612A
公开(公告)日:2020-01-17
申请号:CN201910882386.6
申请日:2019-09-18
Applicant: 重庆邮电大学
IPC: G06K9/62 , G06F16/35 , G06F40/211
Abstract: 本发明请求保护一种混合多特征的句子相似度计算方法、存储介质及系统,包括以下步骤:获取句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的词向量;计算机基于平滑逆频率算法,由词向量利用加权和去除非信息噪音,来计算句子词向量相似度;基于“词语依存三元组”结构,分别计算上述测试句子和由筛选出的相似度前10的句子依存句法的相似度;基于得到的两种句子向量计算的句子混合相似度,并采用P@N和MRR(平均排序倒数)参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。由于本发明考虑了句子中关键词、词向量和句法结构等多方面的特点,更为精确地表达句子的深层含义,以正确判断句子内容的相似性。