-
公开(公告)号:CN118942104A
公开(公告)日:2024-11-12
申请号:CN202411418750.0
申请日:2024-10-12
申请人: 深圳交易集团有限公司
IPC分类号: G06V30/413 , G06V30/414 , G06V30/148 , G06F40/30 , G06F40/289
摘要: 本发明公开了一种结构化信息的提取方法及系统,包括:对标书文件进行数据预处理,得到预处理文件;对预处理文件进行文档结构解析;基于光学字符识别技术以及自然语言处理技术,识别文档结构解析后的预处理文件中的结构体信息;将提取出的结构体信息归类到相应的文档标题层级中,生成结构体对象树状表。能够自动化、智能化地从非结构化文档中提取结构化信息,提高了信息的提取效率和利用效率,同时也提高了信息提取的准确性。