-
公开(公告)号:CN109086327B
公开(公告)日:2022-05-17
申请号:CN201810716386.4
申请日:2018-07-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/958 , G06V30/146 , G06T7/13 , G06T7/155
Abstract: 本发明涉及一种快速生成网页视觉结构图形的方法及装置。该方法包括:提取网页中的文本域的视觉结构图形;提取网页中的图像域的视觉结构图形;将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,得到网页的视觉结构图形。该装置包括文本域视觉结构图形提取模块、图像域视觉结构图形提取模块、去重与合并模块。本发明抛弃了传统分析方法中网页DOM结构的累赘,仅由网页截图应用图形学方法处理图片,大大降低了算法耗时;本发明采用数学形态学变换,能够快速、准确地分别提取网页中文本域与图像域的视觉结构图形。
-
公开(公告)号:CN108921184A
公开(公告)日:2018-11-30
申请号:CN201810350028.6
申请日:2018-04-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种通用的网页类型判定方法,其步骤包括:对网页先进行预处理,再抓取该网页的图像;对图像进行规范化处理,包括将图像缩放至可识别其原有视觉块结构的最小程度并统一宽高尺寸;在不破坏图像原有视觉块结构的前提下对图像进行信息增强,得到图像数据集;将上述图像数据集输入到一用于判定网页类型的模型中,对该模型进行训练;通过上述预处理和规范化处理,获取目标网页的图像,将该图像输入到上述经过训练的模型中,判定该目标网页的类型。
-
公开(公告)号:CN109086327A
公开(公告)日:2018-12-25
申请号:CN201810716386.4
申请日:2018-07-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种快速生成网页视觉结构图形的方法及装置。该方法包括:提取网页中的文本域的视觉结构图形;提取网页中的图像域的视觉结构图形;将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,得到网页的视觉结构图形。该装置包括文本域视觉结构图形提取模块、图像域视觉结构图形提取模块、去重与合并模块。本发明抛弃了传统分析方法中网页DOM结构的累赘,仅由网页截图应用图形学方法处理图片,大大降低了算法耗时;本发明采用数学形态学变换,能够快速、准确地分别提取网页中文本域与图像域的视觉结构图形。
-
-