一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法

    公开(公告)号:CN113051397A

    公开(公告)日:2021-06-29

    申请号:CN202110258416.3

    申请日:2021-03-10

    Abstract: 在当今电子信息化时代,大规模学术数字图书馆在学术界的重要性日趋明显,如知网、万方、DBLP等。在这些系统中收录了以百万计的学术文献记录,但是正因如此,大量学术文章不能很好的匹配其作者,存在明显的同名歧义问题。为了解决上述问题。本发明提供了一种基于网络表示学习和词向量表示进行同名排歧的方法。该方法主要是利用论文的文本信息,如题目、关键词等;论文的关系信息,如作者等。通过以上信息结合网络表示学习以及文本嵌入学习生成表示论文的向量;在通过计算两两向量(文章)之间的相似性生成相似性矩阵;对生成的论文相似性矩阵进行聚类,不同的作者的文章被分配到不同簇中,从而实现了学术论文中同名排歧。

Patent Agency Ranking