一种在线自学习的法院电子卷宗文本分类方法

    公开(公告)号:CN112836051B

    公开(公告)日:2024-03-26

    申请号:CN202110188680.4

    申请日:2021-02-19

    Inventor: 万玉晴 王霄

    Abstract: 本发明公开了一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,基于所采集的法律文书语料集,采用Word2vec的Skip‑gram模型,训练得到司法领域词向量模型,基于所采集的卷宗语料集,采用Doc2vec的PV‑DM模型进行训练,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;利用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化。本发明通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化。

    一种面向法院电子卷宗的案情信息自动抽取方法

    公开(公告)号:CN112417880B

    公开(公告)日:2023-06-23

    申请号:CN202011369142.7

    申请日:2020-11-30

    Inventor: 万玉晴 王霄

    Abstract: 本发明公开了一种面向法院电子卷宗的案情信息自动抽取方法,该方法包括:创建案情信息抽取框架,对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;基于XML的跨领域信息抽取工具TZIE,构建案情信息抽取框架;基于多粒度语义的法律文书构建NER模型及训练,多粒度语义单元的结合方式,采用Word2vec的Skip‑gram模型和LDA主题模型,分别训练得到司法领域词向量模型和字向量模型,结合BiLSTM‑Attention‑CRF模型的领域实体识别,在基准模型BiLSTM‑CRF中增加了Attentio机制,预测每个语义单元属于不同标签的概率,辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务。

    基于XML的领域要素提取配置语言系统

    公开(公告)号:CN111078947B

    公开(公告)日:2023-06-02

    申请号:CN201911130457.3

    申请日:2019-11-19

    Abstract: 本发明公开了一种基于XML的领域要素提取配置语言系统,该系统包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;TZIE语言解析器模块把XML文件中的要素提取配置变成计算机代码语言;TZIE功能调度器模块依据要素提取任务中配置的操作符,调用相应的功能。通过跨领域文本要素提取配置,提供了一种跨领域通用的定义要素方式,同时可以根据文本特征配置适合的方法进行提取,tzie将各种技术封装成为功能操作符,形成一个XML配置文件,易于维护和优化。

    一种在线自学习的法院电子卷宗文本分类方法

    公开(公告)号:CN112836051A

    公开(公告)日:2021-05-25

    申请号:CN202110188680.4

    申请日:2021-02-19

    Inventor: 万玉晴 王霄

    Abstract: 本发明公开了一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,基于所采集的法律文书语料集,采用Word2vec的Skip‑gram模型,训练得到司法领域词向量模型,基于所采集的卷宗语料集,采用Doc2vec的PV‑DM模型进行训练,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;利用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化。本发明通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化。

    基于XML的领域要素提取配置语言系统

    公开(公告)号:CN111078947A

    公开(公告)日:2020-04-28

    申请号:CN201911130457.3

    申请日:2019-11-19

    Abstract: 本发明公开了一种基于XML的领域要素提取配置语言系统,该系统包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;TZIE语言解析器模块把XML文件中的要素提取配置变成计算机代码语言;TZIE功能调度器模块依据要素提取任务中配置的操作符,调用相应的功能。通过跨领域文本要素提取配置,提供了一种跨领域通用的定义要素方式,同时可以根据文本特征配置适合的方法进行提取,tzie将各种技术封装成为功能操作符,形成一个XML配置文件,易于维护和优化。

    一种面向法院电子卷宗的案情信息自动抽取方法

    公开(公告)号:CN112417880A

    公开(公告)日:2021-02-26

    申请号:CN202011369142.7

    申请日:2020-11-30

    Inventor: 万玉晴 王霄

    Abstract: 本发明公开了一种面向法院电子卷宗的案情信息自动抽取方法,该方法包括:创建案情信息抽取框架,对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;基于XML的跨领域信息抽取工具TZIE,构建案情信息抽取框架;基于多粒度语义的法律文书构建NER模型及训练,多粒度语义单元的结合方式,采用Word2vec的Skip‑gram模型和LDA主题模型,分别训练得到司法领域词向量模型和字向量模型,结合BiLSTM‑Attention‑CRF模型的领域实体识别,在基准模型BiLSTM‑CRF中增加了Attentio机制,预测每个语义单元属于不同标签的概率,辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务。

Patent Agency Ranking