一种面向主流微博网站微博ID的采集方法及工具

    公开(公告)号:CN103440139A

    公开(公告)日:2013-12-11

    申请号:CN201310412348.7

    申请日:2013-09-11

    Abstract: 一种面向主流微博网站微博ID的采集方法及工具,系统架构分为两个层次,分别为采集层和存储层,层次和系统间的接口清晰,每层内部都由若干模块组成,模块之间的松耦合,有利于每层功能的扩展。采集层实现认证用户微博ID的爬取以及长期的认证用户粉丝ID的采集;存储层实现将微博ID在本地进行数据库存储,并对外提供开放式的微博ID检索功能。该系统的用户可以是任何基于微博数据的第三方应用的开发人员,利用该系统提供的微博ID进行进一步的微博内容抓取、分析等相关第三方应用的开发;也可以是微博网站的管理人员,利用该系统提供的微博ID进行相关统计,从而对微博相关指标进行分析,如微博活跃程度分析、微博影响力分析等。

    一种基于微博数据的多维度检索排序优化算法和工具

    公开(公告)号:CN103823906A

    公开(公告)日:2014-05-28

    申请号:CN201410101816.3

    申请日:2014-03-19

    CPC classification number: G06F17/30616 G06F17/30657

    Abstract: 一种基于微博数据的多维检索排序优化算法和工具,该算法从数据特征、用户特征和应用特征三个维度对Lucene原始检索排序结果进行优化,使优化后的排序结果在体现数据特征、符合用户查询意图和契合应用主题等方面得到提升。多维度检索排序优化工具,完成基于金融微博数据的实现,分为三个模块,每个模块完成一个维度的优化。数据特征的排序优化模块实现维度一数据特征优化;用户特征的排序优化模块实现维度二用户特征优化,其包括两个子模块——检索标签和检索日志的优化子模块;应用特征的排序优化模块实现维度三应用特征优化。该工具适合优化所有Lucene的基本检索结果,可在某系统检索模块中实现Lucene原始检索结果的优化排序,给予用户更好的检索体验。

Patent Agency Ranking