-
公开(公告)号:CN103324718B
公开(公告)日:2016-08-10
申请号:CN201310256084.0
申请日:2013-06-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 提供一种基于海量搜索日志挖掘话题脉络的方法及装置,所述方法包括:统计网络搜索日志,产生第一搜索词统计数据;将第一搜索词统计数据统计为第二搜索词统计数据;为第一统计记录提取关键词;计算关键词的累计搜索次数,得到关键词搜索累计统计数据;计算单位时间段的关键词搜索热度值;确定单位时间段的话题综合搜索热度值;最后确定所述话题的关键时间节点。通过采用本发明所述方法及装置,不仅能够有效避免话题关联引起的话题漂移,而且能够挖掘出清晰完整的话题脉络。
-
公开(公告)号:CN101984435A
公开(公告)日:2011-03-09
申请号:CN201010549183.4
申请日:2010-11-17
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种对文本进行分发的方法和装置,应用于包含至少两级栏目的栏目框架,其中方法包括:A、针对抓取的各文本分别执行下述分发步骤,分发步骤:将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级子栏目。通过本发明能够减小文本分发的工作量和代价,缩短文本分发的时长,以方便栏目的灵活增减。
-
公开(公告)号:CN101984423A
公开(公告)日:2011-03-09
申请号:CN201010514487.7
申请日:2010-10-21
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种热搜词生成方法及系统,涉及信息处理领域,用以解决现有技术未将搜索请求Query热搜词与垂直门户网页关联,用户的搜索体验有待提升的问题。方法包括:对用户向搜索引擎发起的搜索请求进行存储;对搜索请求进行聚类运算,得出搜索请求簇;确定搜索请求簇中最热门的搜索请求;在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。系统包括:搜索请求存储模块,聚类模块,验证模块,页面搜索模块和挑选模块。本发明将搜索请求热搜词和垂直门户网页进行验证,可辨别出新闻或事件相关的搜索请求热搜词。
-
公开(公告)号:CN103500163B
公开(公告)日:2016-12-28
申请号:CN201310314465.X
申请日:2013-07-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 提供了一种识别事件关键进展的方法和设备,所述方法包括:基于事件核心词获得事件搜索词簇;通过基于媒体关注度针对事件搜索词簇进行事件关键进展识别,获得第一事件关键进展点集合;通过基于新闻热搜词针对事件核心词进行事件关键进展识别,获得第二事件关键进展点集合;通过将第一事件关键进展点集合和第二事件关键进展点集合进行融合和去重,获得第三事件关键进展点集合;对第三事件关键进展点集合进行优化,获得最终事件关键进展脉络。根据本发明的方法和设备,可提供清晰可见的事件脉络,满足用户对事件的关注需求,提高用户体验,并且无需人工编辑,大大降低专题生成成本。
-
公开(公告)号:CN102004792B
公开(公告)日:2012-10-10
申请号:CN201010585538.5
申请日:2010-12-07
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种热搜词的生成方法和装置,其中方法包括:对抓取到的新闻页面进行聚类,形成各新闻簇;确定所述新闻簇中的热点新闻簇;从所述热点新闻簇的新闻页面中提取核心词;按照提取的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。本发明能够实现热搜词的自动生成,无需人工干预,降低了人为工作量,并且不再依赖编辑人员对热点事件的敏感度,提高了热搜词的准确性。
-
公开(公告)号:CN101984423B
公开(公告)日:2012-07-04
申请号:CN201010514487.7
申请日:2010-10-21
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种热搜词生成方法及系统,涉及信息处理领域,用以解决现有技术未将搜索请求Query热搜词与垂直门户网页关联,用户的搜索体验有待提升的问题。方法包括:对用户向搜索引擎发起的搜索请求进行存储;对搜索请求进行聚类运算,得出搜索请求簇;确定搜索请求簇中最热门的搜索请求;在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。系统包括:搜索请求存储模块,聚类模块,验证模块,页面搜索模块和挑选模块。本发明将搜索请求热搜词和垂直门户网页进行验证,可辨别出新闻或事件相关的搜索请求热搜词。
-
公开(公告)号:CN103324718A
公开(公告)日:2013-09-25
申请号:CN201310256084.0
申请日:2013-06-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 提供一种基于海量搜索日志挖掘话题脉络的方法及装置,所述方法包括:统计网络搜索日志,产生第一搜索词统计数据;将第一搜索词统计数据统计为第二搜索词统计数据;为第一统计记录提取关键词;计算关键词的累计搜索次数,得到关键词搜索累计统计数据;计算单位时间段的关键词搜索热度值;确定单位时间段的话题综合搜索热度值;最后确定所述话题的关键时间节点。通过采用本发明所述方法及装置,不仅能够有效避免话题关联引起的话题漂移,而且能够挖掘出清晰完整的话题脉络。
-
公开(公告)号:CN101984435B
公开(公告)日:2012-10-10
申请号:CN201010549183.4
申请日:2010-11-17
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种对文本进行分发的方法和装置,应用于包含至少两级栏目的栏目框架,其中方法包括:A、针对抓取的各文本分别执行下述分发步骤,分发步骤:将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级子栏目。通过本发明能够减小文本分发的工作量和代价,缩短文本分发的时长,以方便栏目的灵活增减。
-
公开(公告)号:CN102012917A
公开(公告)日:2011-04-13
申请号:CN201010560624.0
申请日:2010-11-26
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明关于处理需要产生脉络信息的新闻事件的一种信息处理装置以及处理方法。信息处理装置包括载入新闻簇信息的新闻簇信息载入模块、分析所述新闻簇信息并产生脉络信息的脉络分析模块及展示所述脉络信息的前端展示模块。本发明的信息处理装置以及处理方法工作量较小、时效性较强、清晰度较高的给出新闻事件的脉络信息。
-
公开(公告)号:CN102004792A
公开(公告)日:2011-04-06
申请号:CN201010585538.5
申请日:2010-12-07
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种热搜词的生成方法和装置,其中方法包括:对抓取到的新闻页面进行聚类,形成各新闻簇;确定所述新闻簇中的热点新闻簇;从所述热点新闻簇的新闻页面中提取核心词;按照提取的核心词对应的搜索效果确定出热搜词,其中所述热搜词覆盖所述提取出的核心词中的一个或多个。本发明能够实现热搜词的自动生成,无需人工干预,降低了人为工作量,并且不再依赖编辑人员对热点事件的敏感度,提高了热搜词的准确性。
-
-
-
-
-
-
-
-
-