-
公开(公告)号:CN104915420B
公开(公告)日:2019-12-31
申请号:CN201510315695.7
申请日:2015-06-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/907
Abstract: 本发明公开了一种知识库数据处理方法,所述方法包括:从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息,根据选取的所述关系信息,训练得到与所述关系信息对应的模板,以所述模板作为输入特征,训练得到机器学习模型,在对所述机器学习模型评估达标后提取所述关系信息;将提取的所述关系信息加入所述知识库中,通过搜索引擎查询请求数据,并对查询到的数据进行模板匹配,再由所述机器学习模型进行预测处理。通过采用本发明,可更加准确高效地对知识库数据进行补充。
-
公开(公告)号:CN103744876B
公开(公告)日:2017-02-08
申请号:CN201310706161.8
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明的目的是提供一种用于提供搜索结果的方法与设备。具体地,获取与目标查询序列相对应的初始搜索结果;检测是否满足提供初始搜索结果所对应的原创结果信息的触发条件;当满足触发条件时,根据初始搜索结果及原创结果信息,确定与目标查询序列相对应的目标搜索结果;将目标搜索结果提供给目标查询序列所对应的用户。与现有技术相比,本发明通过检测是否满足提供与目标查询序列相对应的初始搜索结果所对应的原创结果信息的触发条件,当满足时,根据初始搜索结果及原创结果信息,确定对应的目标搜索结果,以将其提供给用户,在保证用户获取较高可信任度、准确度的信息的同时,还提高了用户获取信息的效率,提升了用户的搜索浏览体验。
-
公开(公告)号:CN103902674B
公开(公告)日:2017-10-27
申请号:CN201410103248.0
申请日:2014-03-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提出一种特定主题的评论数据的采集方法和装置。其中该方法包括:根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站;分别从多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与特定主题相关联。本发明的特定主题的评论数据的采集方法,实现了互联网全局评论数据的整合,提升了评论数据的质量,自动化程度高,用户体验好。
-
公开(公告)号:CN104063506B
公开(公告)日:2017-04-12
申请号:CN201410324553.2
申请日:2014-07-08
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。
-
公开(公告)号:CN103902674A
公开(公告)日:2014-07-02
申请号:CN201410103248.0
申请日:2014-03-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明提出一种特定主题的评论数据的采集方法和装置。其中该方法包括:根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站;分别从多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与特定主题相关联。本发明的特定主题的评论数据的采集方法,实现了互联网全局评论数据的整合,提升了评论数据的质量,自动化程度高,用户体验好。
-
公开(公告)号:CN104063506A
公开(公告)日:2014-09-24
申请号:CN201410324553.2
申请日:2014-07-08
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30896
Abstract: 本发明实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。
-
公开(公告)号:CN103631861A
公开(公告)日:2014-03-12
申请号:CN201310517209.0
申请日:2013-10-28
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06Q10/10 , G06Q10/04 , G06Q30/00 , G06F17/30864
Abstract: 本发明的目的是提供一种用于处理并提供评测信息的方法与设备。具体地,获取来自一个或多个数据源的多个评测初始信息;对多个评测初始信息进行处理,以获得包括与评测初始信息相对应的评测记录信息的评测数据集,其中,评测记录信息包括根据评测初始信息并结合关于评测对象的参考评测初始信息所确定的、评测对象的评测维度信息。与现有技术相比,本发明通过与现有技术相比,本发明通过对来自一个或多个数据源的多个评测初始信息进行处理,以获得包括与评测初始信息相对应的评测记录信息的评测数据集,丰富了评测初始信息的来源,得到的评测数据集不仅提升了用户需求满意度,也提高了用户获取信息的效率,相应地,也提升了用户的搜索体验。
-
公开(公告)号:CN104915420A
公开(公告)日:2015-09-16
申请号:CN201510315695.7
申请日:2015-06-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种知识库数据处理方法,所述方法包括:从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息,根据选取的所述关系信息,训练得到与所述关系信息对应的模板,以所述模板作为输入特征,训练得到机器学习模型,在对所述机器学习模型评估达标后提取所述关系信息;将提取的所述关系信息加入所述知识库中,通过搜索引擎查询请求数据,并对查询到的数据进行模板匹配,再由所述机器学习模型进行预测处理。通过采用本发明,可更加准确高效地对知识库数据进行补充。
-
公开(公告)号:CN103744876A
公开(公告)日:2014-04-23
申请号:CN201310706161.8
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明的目的是提供一种用于提供搜索结果的方法与设备。具体地,获取与目标查询序列相对应的初始搜索结果;检测是否满足提供初始搜索结果所对应的原创结果信息的触发条件;当满足触发条件时,根据初始搜索结果及原创结果信息,确定与目标查询序列相对应的目标搜索结果;将目标搜索结果提供给目标查询序列所对应的用户。与现有技术相比,本发明通过检测是否满足提供与目标查询序列相对应的初始搜索结果所对应的原创结果信息的触发条件,当满足时,根据初始搜索结果及原创结果信息,确定对应的目标搜索结果,以将其提供给用户,在保证用户获取较高可信任度、准确度的信息的同时,还提高了用户获取信息的效率,提升了用户的搜索浏览体验。
-
-
-
-
-
-
-
-