-
公开(公告)号:CN108399167B
公开(公告)日:2022-04-29
申请号:CN201710064455.3
申请日:2017-02-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/957 , G06F16/951 , G06F16/955 , G06K9/62
Abstract: 本申请提出一种网页信息提取方法和装置,该方法包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。
-
公开(公告)号:CN108399167A
公开(公告)日:2018-08-14
申请号:CN201710064455.3
申请日:2017-02-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本申请提出一种网页信息提取方法和装置,该方法包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。
-