一种基于PageRank和信息熵的裁判文书的文本分词方法

    公开(公告)号:CN108776653A

    公开(公告)日:2018-11-09

    申请号:CN201810534689.4

    申请日:2018-05-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于PageRank和信息熵的裁判文书的文本分词方法,该发明属于自然语言处理领域中的中文分词技术,主要采用了改进的PageRank算法、信息熵、互信息以及关键词词典对中文文本进行分词。本发明针对法律领域的裁判文书,在PageRank算法基础上建立了分词方法,根据Rank向量切分候选词,并利用信息熵对候选词进行修正,再依据裁判文书的关键词词典做术语合并,最终输出分词结果,该方法能够较为准确地对裁判文书进行分词。本发明与现有方法相比,其显著优点是:不需要通过大量文本语料库进行统计或训练以建立大规模的词典,仅对输入文本进行统计,将输入文本作为现有语料库进行统计挖掘,最终结合裁判文书的关键词术语词典即可完成分词。

    一种裁判文书的检索方法

    公开(公告)号:CN109359173A

    公开(公告)日:2019-02-19

    申请号:CN201811272641.7

    申请日:2018-10-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种裁判文书的检索方法,包括以下步骤:(1)根据裁判文书内容定义索引字段,设置字段类型,创建索引;(2)将裁判文书文件导入索引;(3)对裁判文书进行检索,并根据检索条件,按照匹配程度排序并分页显示结果列表,进一步筛选以缩小结果集;(4)对结果列表中的单篇裁判文书具体信息分节点异步加载和展示;(5)对结果列表中的裁判文书文件进行下载。本发明能提供高效的裁判文书全文检索和清晰的裁判文书阅读体验,显著降低了裁判文书的检索难度和阅读难度,极大的提升了法律从业人员的工作效率。

    面向领域的文本大数据快速分词方法

    公开(公告)号:CN110956036A

    公开(公告)日:2020-04-03

    申请号:CN201811143681.1

    申请日:2018-09-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向领域的文本大数据快速分词方法,涉及大数据和自然语言预处理领域,解决了目前对大量中文实时文本分词速度慢且较难识别新词的问题。本发明的关键步骤有二:(1)对语料中的邻接字建立频次模型;(2)查找合适的位置将待分词句子切分为若干词语片段。本发明所采用的方法和效果有如下特点:(1)基于统计,不需要预先建立词典,和其他人工干预;(2)在专用领域的语料上有较强的新词发现能力;(3)分词时间复杂度为O(n),明显快于其他分词工具;(4)分词的平均错误率在10%以下。

    一种基于深度神经网络的电子卷宗标题定位提取与分类方法

    公开(公告)号:CN110929746A

    公开(公告)日:2020-03-27

    申请号:CN201910454209.8

    申请日:2019-05-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于深度神经网络的电子卷宗标题定位提取与分类方法,包括以下步骤:将卷宗图片输入神经网络提取多张多尺寸的特征图,根据输出的特征图计算类别分数以及边框位置,通过多种标题选举算法推选出文书当中的标题位置以及标题类别。本发明目的是为了解决在实际处理电子卷宗过程中,经常需要手动对电子卷宗图像进行分类的情况,从单纯的图像层面而不是通过OCR(光学字符识别)等方式来提取图像的标题,通过图像的特征能够准确获得图像标题的位置及类别,提高了鲁棒性泛用性,提高了图像分类的准确性。

    一种中文OCR后处理的无监督学习方法

    公开(公告)号:CN110781898A

    公开(公告)日:2020-02-11

    申请号:CN201911009431.3

    申请日:2019-10-21

    Applicant: 南京大学

    Abstract: 收集了来自法律领域2014年至2018年不同地区的卷宗扫描件,涵盖几十种分辨率,基于大量的法律卷宗数据,并结合法律文书,融入领域知识,来进行对中文OCR后处理的研究。基于经典模型以及成熟OCR(Tesseract、百度OCR),构建了OCR识别模型。获取大量多样性的Witnesses,免去人工的标注。基于OCR识别系统的结果,提出一种基于无监督的多输入OCR纠错方法,构建OCR纠错模型,可以避免人为的大量标记。实验结果表明,在我们的语料库上,提出的非监督的学习模型,在准确率上有一定的提高。也进一步表明了,采用这种多输入无监督的学习方法可以很好地对OCR的识别结果进行纠正。

Patent Agency Ranking