一种基于词性标注的文档相似性度量方法

    公开(公告)号:CN109062899A

    公开(公告)日:2018-12-21

    申请号:CN201810857156.X

    申请日:2018-07-31

    CPC classification number: G06F17/2785 G06F17/277

    Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。

    一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

    公开(公告)号:CN108595706A

    公开(公告)日:2018-09-28

    申请号:CN201810443084.4

    申请日:2018-05-10

    Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。

    一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

    公开(公告)号:CN108595706B

    公开(公告)日:2022-05-24

    申请号:CN201810443084.4

    申请日:2018-05-10

    Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括:1)使用词向量模型对语料进行训练,得到词向量;2)在语义空间内对词向量进行聚类;3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离,将得到的距离作为待表示文档的语义表示。进而,通过计算文档的语义表示向量之间的相似性,实现文档的分类。本发明依据文本的语义信息和单词频率等信息,通过WMD模型计算文本单词和聚类集合之间的转移代价,将文本表示成一个低维稠密、包含语义信息的向量,能更好地表示文本信息,分类任务准确性高,可应用在信息检索、文本分类等自然语言处理任务中。

    一种基于词性标注的文档相似性度量方法

    公开(公告)号:CN109062899B

    公开(公告)日:2021-10-15

    申请号:CN201810857156.X

    申请日:2018-07-31

    Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。

Patent Agency Ranking