一种基于功能区域识别的网页切分方法及装置

    公开(公告)号:CN103440239A

    公开(公告)日:2013-12-11

    申请号:CN201310176551.9

    申请日:2013-05-14

    Abstract: 公开了一种基于功能区域识别的网页切分方法及装置。所述方法包括:针对网页生成文档对象模型(DOM)树,DOM树包括用于网页展示的内容;提取DOM树节点的位置信息和大小信息;解析出层叠样式表(CSS)属性中的边界边缘属性和栏外空白区属性;利用网页分块标注算法对网页进行标注,以标注出功能和语义区,并将标注的块标记为粒度候选;根据DOM树结构在剩余网页中扫描图文混排块,将扫描出的图文混排块标记为粒度候选;扫描剩余的块,如果扫描出的块的边界边缘属性和栏外空白区属性不为0,则将所述块标记为粒度候选;将DOM树中剩余没有标记的块标记为粒度候选。

    一种基于功能区域识别的网页切分方法及装置

    公开(公告)号:CN103440239B

    公开(公告)日:2016-08-10

    申请号:CN201310176551.9

    申请日:2013-05-14

    Abstract: 公开了一种基于功能区域识别的网页切分方法及装置。所述方法包括:针对网页生成文档对象模型(DOM)树,DOM树包括用于网页展示的内容;提取DOM树节点的位置信息和大小信息;解析出层叠样式表(CSS)属性中的边界边缘属性和栏外空白区属性;利用网页分块标注算法对网页进行标注,以标注出功能和语义区,并将标注的块标记为粒度候选;根据DOM树结构在剩余网页中扫描图文混排块,将扫描出的图文混排块标记为粒度候选;扫描剩余的块,如果扫描出的块的边界边缘属性和栏外空白区属性不为0,则将所述块标记为粒度候选;将DOM树中剩余没有标记的块标记为粒度候选。

Patent Agency Ranking