-
公开(公告)号:CN103324718A
公开(公告)日:2013-09-25
申请号:CN201310256084.0
申请日:2013-06-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 提供一种基于海量搜索日志挖掘话题脉络的方法及装置,所述方法包括:统计网络搜索日志,产生第一搜索词统计数据;将第一搜索词统计数据统计为第二搜索词统计数据;为第一统计记录提取关键词;计算关键词的累计搜索次数,得到关键词搜索累计统计数据;计算单位时间段的关键词搜索热度值;确定单位时间段的话题综合搜索热度值;最后确定所述话题的关键时间节点。通过采用本发明所述方法及装置,不仅能够有效避免话题关联引起的话题漂移,而且能够挖掘出清晰完整的话题脉络。
-
公开(公告)号:CN103324718B
公开(公告)日:2016-08-10
申请号:CN201310256084.0
申请日:2013-06-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 提供一种基于海量搜索日志挖掘话题脉络的方法及装置,所述方法包括:统计网络搜索日志,产生第一搜索词统计数据;将第一搜索词统计数据统计为第二搜索词统计数据;为第一统计记录提取关键词;计算关键词的累计搜索次数,得到关键词搜索累计统计数据;计算单位时间段的关键词搜索热度值;确定单位时间段的话题综合搜索热度值;最后确定所述话题的关键时间节点。通过采用本发明所述方法及装置,不仅能够有效避免话题关联引起的话题漂移,而且能够挖掘出清晰完整的话题脉络。
-
公开(公告)号:CN104008140B
公开(公告)日:2018-11-23
申请号:CN201410193604.2
申请日:2014-05-08
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明的目的是提供一种用于处理网络应用中的数据集的方法与设备。具体地,确定网络应用中的目标数据集所对应的相互独立的多个数据子集的数据集状态信息;确定具有相同所述数据集状态信息的数据子集的第一优先级信息;根据第一优先级信息,执行具有相同所述数据集状态信息的数据子集,以执行多个数据子集。与现有技术相比,本发明通过将目标数据集划分为多个相互独立的数据子集,确定具有相同数据集状态信息的数据子集的第一优先级信息,以根据该第一优先级信息,执行具有相同所述数据集状态信息的数据子集,从而执行多个数据子集,使得各数据子集并行处理,从而提高数据处理的整体效率、机群资源利用率、避免大数据处理经常出现的长尾问题。
-
公开(公告)号:CN104008140A
公开(公告)日:2014-08-27
申请号:CN201410193604.2
申请日:2014-05-08
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F17/30312 , G06F17/30584
Abstract: 本发明的目的是提供一种用于处理网络应用中的数据集的方法与设备。具体地,确定网络应用中的目标数据集所对应的相互独立的多个数据子集的数据集状态信息;确定具有相同所述数据集状态信息的数据子集的第一优先级信息;根据第一优先级信息,执行具有相同所述数据集状态信息的数据子集,以执行多个数据子集。与现有技术相比,本发明通过将目标数据集划分为多个相互独立的数据子集,确定具有相同数据集状态信息的数据子集的第一优先级信息,以根据该第一优先级信息,执行具有相同所述数据集状态信息的数据子集,从而执行多个数据子集,使得各数据子集并行处理,从而提高数据处理的整体效率、机群资源利用率、避免大数据处理经常出现的长尾问题。
-
-
-