一种网页正文解析方法、系统、介质及电子设备

发明授权

CN113392354B 一种网页正文解析方法、系统、介质及电子设备有权

请登陆查看更多内容

专利标题： 一种网页正文解析方法、系统、介质及电子设备
申请号： CN202110719543.9

申请日： 2021-06-28
公开(公告)号： CN113392354B

公开(公告)日： 2022-09-13
发明人: 辛国茂 , 王瑞霜 , 吴士伟 , 陈通 , 卢凤 , 杨春
申请人： 山东亿云信息技术有限公司
申请人地址： 山东省济南市高新区新泺大街2008号银荷大厦B座3层
专利权人： 山东亿云信息技术有限公司
当前专利权人： 山东亿云信息技术有限公司
当前专利权人地址： 250101 山东省济南市高新技术产业开发区舜华路2000号舜泰广场3号楼12层
代理机构： 济南圣达知识产权代理有限公司
代理商 祖之强
主分类号： G06F16/958
IPC分类号： G06F16/958

摘要：

本公开提供了一种网页正文解析方法、系统、介质及电子设备，获取网页HTML源代码；对网页HTML源代码进行预处理；根据预处理后的网页HTML源代码生成文档对象模型树；根据获取的文档对象模型树，定位发文日期所在的块并获取其节点；根据发文日期块节点获取正文块节点；根据正文块节点获取正文块XPath及正文块HTML；本公开解决了低密度网页正文提取的问题，提升了网页正文的提取准确率，提高了工作效率，节省了人力成本。

公开/授权文献

CN113392354A 一种网页正文解析方法、系统、介质及电子设备公开/授权日：2021-09-14

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/90	.•与检索数据类型无关的数据库功能
G06F16/95	..••从网上检索
G06F16/958	...•••网络站点的组织或管理，例如：发布,自动链接或保持页面