基于同类别非结构化文档提取专业领域实体对信息的方法

    公开(公告)号:CN119721218A

    公开(公告)日:2025-03-28

    申请号:CN202411752907.3

    申请日:2024-12-02

    Inventor: 鲍笑 张蕾蕾

    Abstract: 本发明提供一种基于同类别非结构化文档提取专业领域实体对信息的方法。包括:统计每个待提取专业领域实体对在文档中的表述特征,确定文本和信息的提取规则,将规则总结在模板中;去除文档中的分割线、水印、目录或前言页之前的无效页面、页眉页脚,并根据文本范围提取正文内容,所述正文内容包括文本内容及表格内容;构建过滤式的三层组合提取模型实现实体信息提取,所述三层组合提取模型涉及基于规则的提取、基于表格的提取、基于大模型问答的提取方案及其按序组合,通过准确性核验判定结果准确性,并将准确性反馈至方案层进行策略调优。本发明能够克服现有基于规则抽取信息泛化能力不足,而机器学习和深度学习方法缺乏专业领域的标注数据的问题。

Patent Agency Ranking