一种面向裁判文书的文本信息抽取方法

    公开(公告)号:CN108763483A

    公开(公告)日:2018-11-06

    申请号:CN201810534632.4

    申请日:2018-05-25

    Applicant: 南京大学

    Abstract: 本发明是一种面向裁判文书的文本信息抽取方法,主要步骤包括:根据中文裁判文书的书写规律与文书结构,设计文书分段模型存储逻辑段;分析文书各逻辑段的内容,确定每个逻辑段包含的信息项,设计文书信息项模型;以裁判文书为输入,逻辑段特征为依据,输出文书分段模型;以文书分段模型为输入,信息项特征为依据,提取信息项内容,构建文书信息项模型;将文书信息项模型转化为XML格式文档。本发明主要针对民事一审、民事二审、刑事一审、刑事二审、行政一审、行政二审共六类案件的裁判文书,设计了一种面向裁判文书的文本信息抽取方法,能够对任意一篇裁判文书做文本信息抽取,并输出XML格式文档,其结果将为面向裁判文书的文本分析提供重要基础。

    一种基于文本相似度的裁判文书的证据链关系模型构建方法

    公开(公告)号:CN108763485A

    公开(公告)日:2018-11-06

    申请号:CN201810534766.6

    申请日:2018-05-25

    Applicant: 南京大学

    CPC classification number: G06F17/271 G06F17/2775 G06F17/2785

    Abstract: 本发明是一种基于文本相似度的裁判文书证据链关系模型构建方法,该构建方法的主要步骤包括:(1)针对中文裁判文书进行文本预处理;(2)读取预处理后裁判文书中的证据段与事实段;(3)抽取证据链体及事实的What、Where、Who、When和How Much这五类关键要素;(4)通过计算关键要素联结计算构造证据链关系模型中的证据与证据的关联以及证据与事实的关联完成模型构建;(5)并计算建模后的证据链关系模型中每条证据链的权重;(6)将构建出的模型以Excel表格格式输出;(7)使用证据链建模工具展示生成的证据链关系模型的结构。本发明主要针对中国法律裁判文书说理评估中的证据链关系模型构建任务,根据裁判文书说理的特征和法院文书的结构特点,改善裁判文书预处理方法,优化关键要素提取技术,能够有效运用于评估裁判文书的事实说理水平。

Patent Agency Ranking