- 专利标题: 一种数据提取方法、装置、电子设备和存储介质
-
申请号: CN202210780916.8申请日: 2022-07-05
-
公开(公告)号: CN114861641B公开(公告)日: 2022-09-20
- 发明人: 贾新 , 李善平 , 晋梁昊 , 邵强
- 申请人: 北京拓普丰联信息科技股份有限公司 , 河南拓普计算机网络工程有限公司 , 合肥拓普网络系统工程有限责任公司 , 北京剑鱼信息技术有限公司
- 申请人地址: 北京市朝阳区北四环中路华严北里健翔3号地峻峰华亭嘉园C座住宅楼2011; ; ;
- 专利权人: 北京拓普丰联信息科技股份有限公司,河南拓普计算机网络工程有限公司,合肥拓普网络系统工程有限责任公司,北京剑鱼信息技术有限公司
- 当前专利权人: 北京拓普丰联信息科技股份有限公司,河南拓普计算机网络工程有限公司,合肥拓普网络系统工程有限责任公司,北京剑鱼信息技术有限公司
- 当前专利权人地址: 北京市朝阳区北四环中路华严北里健翔3号地峻峰华亭嘉园C座住宅楼2011; ; ;
- 代理机构: 北京超凡宏宇专利代理事务所
- 代理商 曹延鹏
- 主分类号: G06F40/258
- IPC分类号: G06F40/258 ; G06F40/289 ; G06F16/35
摘要:
本申请提供了一种数据提取方法、装置、电子设备和存储介质,包括:依次对接收到待解析文章中的每个自然段进行第一排序;针对标题自然段在待解析文章中的位置、标题内容,确定各标题自然段之间的第一层级关系,并确定标题自然段与内容自然段之间的第二层级关系;根据标点符号将每个内容自然段中拆解为短语,并分别对短语、由短语组成的句子进行第二排序和第三排序;基于第一排序、第二排序、第三排序、第一层级关系、第二层级关系,构建结构化解析内容;根据为待解析文章的文章类别预设的提取格式,从结构化解析内容中提取出目标数据,以在显示终端展示目标数据或导出为目标文件格式。通过上述方法,有助于提高特殊领域文章的内容提取精度。
公开/授权文献
- CN114861641A 一种数据提取方法、装置、电子设备和存储介质 公开/授权日:2022-08-05