Patent search ap:("中国科学院信息工程研究所") AND inv:"白离" Page 1

1.

发明公开
一种基于词性标注的文档相似性度量方法有权

公开(公告)号：CN109062899A

公开(公告)日：2018-12-21

申请号：CN201810857156.X

申请日：2018-07-31

Applicant: 中国科学院信息工程研究所

Inventor： 陈小军 , 王大魁 , 时金桥 , 白离 , 胡兰兰 , 文新 , 张闯

IPC: G06F17/27

CPC classification number: G06F17/2785 , G06F17/277

Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为：1)对于两待分析的文档doc1、doc2，使用词性标注工具对文档doc1、doc2进行词性标注，得到文档的词性标签，对词性标签进行编码，得到词性标签向量；2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离；3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确，可以被应用在信息检索、文本分类等自然语言处理任务中，能够大大提高文本分类任务的准确率。

2.

发明公开
一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置有权

公开(公告)号：CN108595706A

公开(公告)日：2018-09-28

申请号：CN201810443084.4

申请日：2018-05-10

Applicant: 中国科学院信息工程研究所

Inventor： 陈小军 , 王大魁 , 时金桥 , 白离 , 胡兰兰 , 文新 , 张闯 , 马建伟

IPC: G06F17/30 , G06F17/27

Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括：1)使用词向量模型对语料进行训练，得到词向量；2)在语义空间内对词向量进行聚类；3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。进而，通过计算文档的语义表示向量之间的相似性，实现文档的分类。本发明依据文本的语义信息和单词频率等信息，通过WMD模型计算文本单词和聚类集合之间的转移代价，将文本表示成一个低维稠密、包含语义信息的向量，能更好地表示文本信息，分类任务准确性高，可应用在信息检索、文本分类等自然语言处理任务中。

3.

发明授权
一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置有权

公开(公告)号：CN108595706B

公开(公告)日：2022-05-24

申请号：CN201810443084.4

申请日：2018-05-10

Applicant: 中国科学院信息工程研究所

Inventor： 陈小军 , 王大魁 , 时金桥 , 白离 , 胡兰兰 , 文新 , 张闯 , 马建伟

IPC: G06F16/35 , G06F40/30

Abstract: 本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括：1)使用词向量模型对语料进行训练，得到词向量；2)在语义空间内对词向量进行聚类；3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。进而，通过计算文档的语义表示向量之间的相似性，实现文档的分类。本发明依据文本的语义信息和单词频率等信息，通过WMD模型计算文本单词和聚类集合之间的转移代价，将文本表示成一个低维稠密、包含语义信息的向量，能更好地表示文本信息，分类任务准确性高，可应用在信息检索、文本分类等自然语言处理任务中。

4.

发明授权
一种基于词性标注的文档相似性度量方法有权

公开(公告)号：CN109062899B

公开(公告)日：2021-10-15

申请号：CN201810857156.X

申请日：2018-07-31

Applicant: 中国科学院信息工程研究所

Inventor： 陈小军 , 王大魁 , 时金桥 , 白离 , 胡兰兰 , 文新 , 张闯

IPC: G06F40/30 , G06F40/284

Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为：1)对于两待分析的文档doc1、doc2，使用词性标注工具对文档doc1、doc2进行词性标注，得到文档的词性标签，对词性标签进行编码，得到词性标签向量；2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离；3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确，可以被应用在信息检索、文本分类等自然语言处理任务中，能够大大提高文本分类任务的准确率。

Patent Agency Ranking