- 专利标题: 文档解析方法、文档解析模型训练方法、装置和电子设备
-
申请号: CN202310518177.X申请日: 2023-05-10
-
公开(公告)号: CN116306575B公开(公告)日: 2023-08-29
- 发明人: 彭敬伟 , 钟良敏 , 李晓平 , 顾文斌 , 孙勇
- 申请人: 杭州恒生聚源信息技术有限公司 , 上海恒生聚源数据服务有限公司
- 申请人地址: 浙江省杭州市杭州经济技术开发区白杨街道科技园路2号2幢1701-1714室;
- 专利权人: 杭州恒生聚源信息技术有限公司,上海恒生聚源数据服务有限公司
- 当前专利权人: 杭州恒生聚源信息技术有限公司,上海恒生聚源数据服务有限公司
- 当前专利权人地址: 浙江省杭州市杭州经济技术开发区白杨街道科技园路2号2幢1701-1714室;
- 代理机构: 北京超凡宏宇专利代理事务所
- 代理商 戴尧罡
- 主分类号: G06F40/205
- IPC分类号: G06F40/205 ; G06F40/169 ; G06N20/00
摘要:
本申请提供一种文档解析方法、文档解析模型训练方法、装置和电子设备,属于计算机技术领域。该方法包括:基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性;所述分栏属性用于指示每个所述待解析文本块的分布形式;根据各所述待解析文本块的分栏属性,确定所述待解析文档的待解析区域,所述待解析区域包括分栏区域和/或未分栏区域;分别按照各所述待解析区域对各所述待解析文档进行解析,得到所述待解析文档的解析结果。本申请可以提高适用性和文档解析的效果。
公开/授权文献
- CN116306575A 文档解析方法、文档解析模型训练方法、装置和电子设备 公开/授权日:2023-06-23