Patent search ap:("中国科学院计算技术研究所") AND inv:"刘杨昊" Page 1

1.

发明公开
一种基于语义的网页信息抽取方法及系统审中-实审

公开(公告)号：CN114528459A

公开(公告)日：2022-05-24

申请号：CN202210044347.0

申请日：2022-01-14

Applicant: 中国科学院计算技术研究所

Inventor： 郭岩 , 王之威 , 刘杨昊 , 刘悦 , 薛源海 , 俞晓明 , 沈华伟 , 程学旗

IPC: G06F16/951 , G06F16/958 , G06F16/35 , G06F40/30 , G06F40/146

Abstract: 本发明提出一种基于语义的网页信息抽取方法，包括：获取目标网页的目标DOM树，对该目标DOM树的目标骨架节点按句进行分裂，得到该目标DOM树的目标骨架子节点；以分类模型按目标任务语义对所有该目标骨架子节点进行分类，获得该目标DOM树的目标信息子节点；对所有该目标信息子节点形成的节点路径进行聚类，获得该目标网页的目标信息树，对该目标信息树中包含的网页信息进行抽取。本发明还提出一种基于语义的网页信息抽取系统，以及一种用于实现基于语义的网页信息抽取的数据处理装置。

Patent Agency Ranking