Patent search ap:("南京大学") AND inv:"李振昊" Page 1

1.

发明公开
一种基于PageRank和信息熵的裁判文书的文本分词方法无效

公开(公告)号：CN108776653A

公开(公告)日：2018-11-09

申请号：CN201810534689.4

申请日：2018-05-25

Applicant: 南京大学

Inventor： 葛季栋 , 李传艺 , 李振昊 , 雷妙妙 , 姚林霞 , 周筱羽 , 骆斌

IPC: G06F17/27

Abstract: 本发明公开了一种基于PageRank和信息熵的裁判文书的文本分词方法，该发明属于自然语言处理领域中的中文分词技术，主要采用了改进的PageRank算法、信息熵、互信息以及关键词词典对中文文本进行分词。本发明针对法律领域的裁判文书，在PageRank算法基础上建立了分词方法，根据Rank向量切分候选词，并利用信息熵对候选词进行修正，再依据裁判文书的关键词词典做术语合并，最终输出分词结果，该方法能够较为准确地对裁判文书进行分词。本发明与现有方法相比，其显著优点是：不需要通过大量文本语料库进行统计或训练以建立大规模的词典，仅对输入文本进行统计，将输入文本作为现有语料库进行统计挖掘，最终结合裁判文书的关键词术语词典即可完成分词。

Patent Agency Ranking