-
公开(公告)号:CN108399167B
公开(公告)日:2022-04-29
申请号:CN201710064455.3
申请日:2017-02-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/957 , G06F16/951 , G06F16/955 , G06K9/62
Abstract: 本申请提出一种网页信息提取方法和装置,该方法包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。
-
公开(公告)号:CN106528655A
公开(公告)日:2017-03-22
申请号:CN201610906155.0
申请日:2016-10-18
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种文本主题识别方法和装置,该文本主题识别方法包括:获取待识别的文本;获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题;根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。该方法能够提高识别出的文本主题的准确度。
-
公开(公告)号:CN108399167A
公开(公告)日:2018-08-14
申请号:CN201710064455.3
申请日:2017-02-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本申请提出一种网页信息提取方法和装置,该方法包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。
-
-