-
公开(公告)号:CN115062103A
公开(公告)日:2022-09-16
申请号:CN202210534825.6
申请日:2022-05-17
Applicant: 北京理工大学
Abstract: 本发明涉及结合聚类与图注意力机制的多粒度语义融合文本匹配方法,属于自然语言处理与机器学习领域。本发明首先对实体、句子和主题三种不同粒度的语义信息分别建模得到相应的嵌入向量,实体和主题建模过程中引入外部语义知识;然后分别聚类实体、主题嵌入向量,使用聚类中心作为所在聚类中所有向量的统一表示;接着,利用图注意力机制学习句子级语义与实体、主题级语义之间的关联权重;最后,将训练后的句子向量作为句子的最终表示,进一步进行文本匹配任务。本发明能够有效提高特定领域短文本句子对的匹配效果,在一定程度上解决了待匹配文本过短且包含特定领域词汇导致语义稀疏,匹配准确率低的问题。
-
公开(公告)号:CN109948162A
公开(公告)日:2019-06-28
申请号:CN201910225744.6
申请日:2019-03-25
Applicant: 北京理工大学
Abstract: 本发明涉及融合序列语法标注框架的生成式文本摘要方法,属于自然语言处理领域。主要为了解决现有模型在产生摘要时没有考虑语法结构,因此生成的摘要存在不满足语法规则的问题。本发明首先利用开源句法分析器Berkeley Parser对句子进行成分句法分析,生成短语解析树;其次通过深度优先遍历算法,将短语解析树线性化成一个结构标签序列;然后使用word2vec工具对语法标注序列进行向量化;最后将源语法结构信息输入到编码器中,经过摘要生成模块编、解码,最终生成摘要。实验在CNN/Daily Mail数据集上进行,结果表明本发明不仅解决了超纲词、重复短语、主题不显著等问题,而且生成的摘要基本满足语法规则,可读性更强,与源文本语法更具有一致性,ROUGE得分比先进算法有一定提高。
-
公开(公告)号:CN111597820A
公开(公告)日:2020-08-28
申请号:CN202010393829.8
申请日:2020-05-11
Applicant: 北京理工大学
Abstract: 本发明涉及ICT供应链招投标项目与企业产品实体匹配方法,属于自然语言处理与机器学习领域。主要为了解决ICT领域招投标项目和企业产品之间由于描述角度不同而造成的匹配困难问题。本发明首先根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;将由词嵌入向量序列表示的待匹配的实体对分别传递至LSTM孪生网络,由模型最终隐藏状态编码得到实体对最终语义向量表示;后使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度,根据阈值得到匹配结果。在ICT招投标项目知识库与企业官网产品知识库构建的数据集上对本技术方案及经典方案进行对比实验,结果表明该方法进一步提升了正确率和F1值,获得了更好的实体匹配效果。
-
-