-
公开(公告)号:CN105677764A
公开(公告)日:2016-06-15
申请号:CN201511022937.X
申请日:2015-12-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本申请公开了信息提取方法和装置。所述方法的一具体实施方式包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。该实施方式实现了信息自动、精确的提取。
-
公开(公告)号:CN108205572A
公开(公告)日:2018-06-26
申请号:CN201611184144.2
申请日:2016-12-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种搜索方法、装置及设备。该方法包括:获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。实现了在获取搜索结果页的过程中更多地考虑用户的搜索需求,以更加准确地对搜索结果进行排序,从而获得更加贴近用户搜索需求的搜索结果,提升用户的搜索体验。
-
公开(公告)号:CN108280081B
公开(公告)日:2023-02-24
申请号:CN201710009623.9
申请日:2017-01-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/9535
Abstract: 本申请公开了一种生成网页的方法和装置。该方法的一具体实施方式包括:响应于接收到用户的网页浏览请求,获取用户输入的搜索式;对该搜索式进行解析提取搜索目标词对,其中,搜索目标词对包括一个搜索对象关键词与一个搜索意图关键词;将搜索目标词对与根据网页浏览请求获取的所请求页面的各个页面元素内容对应的各个主题分别进行匹配;基于所匹配到的主题,选取所请求页面的页面元素内容进行排序生成网页。该实施方式可以根据用户的搜索式动态生成新网页,从而提高信息推送的针对性。
-
公开(公告)号:CN105677764B
公开(公告)日:2020-05-08
申请号:CN201511022937.X
申请日:2015-12-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/951 , G06F16/957
Abstract: 本申请公开了信息提取方法和装置。所述方法的一具体实施方式包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。该实施方式实现了信息自动、精确的提取。
-
公开(公告)号:CN108399167B
公开(公告)日:2022-04-29
申请号:CN201710064455.3
申请日:2017-02-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/957 , G06F16/951 , G06F16/955 , G06K9/62
Abstract: 本申请提出一种网页信息提取方法和装置,该方法包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。
-
公开(公告)号:CN108280081A
公开(公告)日:2018-07-13
申请号:CN201710009623.9
申请日:2017-01-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本申请公开了一种生成网页的方法和装置。该方法的一具体实施方式包括:响应于接收到用户的网页浏览请求,获取用户输入的搜索式;对该搜索式进行解析提取搜索目标词对,其中,搜索目标词对包括一个搜索对象关键词与一个搜索意图关键词;将搜索目标词对与根据网页浏览请求获取的所请求页面的各个页面元素内容对应的各个主题分别进行匹配;基于所匹配到的主题,选取所请求页面的页面元素内容进行排序生成网页。该实施方式可以根据用户的搜索式动态生成新网页,从而提高信息推送的针对性。
-
公开(公告)号:CN108399167A
公开(公告)日:2018-08-14
申请号:CN201710064455.3
申请日:2017-02-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本申请提出一种网页信息提取方法和装置,该方法包括:获取待提取网页的源代码和视觉信息;根据所述源代码和视觉信息,确定所述待提取网页中的区块信息;对所述区块信息进行聚类,提取所述待提取网页中的结构化信息。该方法能够提取到更有效的信息,进而可以在有限空间上展示更有效的信息,提高展示效率,降低成本。
-
-
-
-
-
-