用于微博的舆情监控方法和装置

    公开(公告)号:CN103885993A

    公开(公告)日:2014-06-25

    申请号:CN201210566545.X

    申请日:2012-12-24

    CPC classification number: G06F17/3089

    Abstract: 本发明提供了一种用于微博的舆情监控方法,包括:确定被监控微博的源博主;从源博主出发深度优先遍历被监控微博的转发博主;获取转发博主的粉丝数及其关于被监控微博的转发次数;根据其粉丝数和转发次数设置转发博主的重要度。本发明还提供了一种用于微博的舆情监控装置,包括:确定模块,用于确定被监控微博的源博主;遍历模块,用于从源博主出发深度优先遍历被监控微博的转发博主;获取模块,用于获取转发博主的粉丝数及其关于被监控微博的转发次数;设置模块,用于根据其粉丝数和转发次数设置转发博主的重要度。本发明降低了舆情分析的难度,提高了舆情分析准确率。

    微博实时检索方法和装置

    公开(公告)号:CN103885985A

    公开(公告)日:2014-06-25

    申请号:CN201210564284.8

    申请日:2012-12-24

    CPC classification number: G06F17/30864 G06F17/30654

    Abstract: 本发明提供了微博实时检索方法,包括:对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;获取来自用户的关键词;对关键词进行逻辑扩展得到以生成扩展检索逻辑式;以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明还提供了一种微博实时检索装置,包括:文档扩展模块,用于对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;关键词模块,用于获取来自用户的关键词;检索扩展模块,用于对关键词进行逻辑扩展得到以生成扩展检索逻辑式;匹配模块,用于以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明提高了微博检索的准确度。

    从网站中多个不同IP的服务器抓取网页的方法及系统

    公开(公告)号:CN102469132B

    公开(公告)日:2014-04-30

    申请号:CN201010546334.0

    申请日:2010-11-15

    Abstract: 本发明公开了一种从网站中多个不同IP的服务器抓取网页的方法及系统。本发明首先为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;然后判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。本发明的访问策略基于IP级,更便于控制采集工作线程对网站进行礼貌地访问;通过缓存DNS,同时使用多个IP并优先分配速度最快IP的方式,极大地提高了网页抓取的效率;而且当目标网站有个别服务器不能访问时能够及时切换到其他IP的服务器,提高了容错能力。

    获取预定义字符数据的方法和装置

    公开(公告)号:CN102110103B

    公开(公告)日:2014-04-09

    申请号:CN200910243515.3

    申请日:2009-12-25

    Abstract: 本发明提供了一种获取预定义字符数据的方法和装置,本发明的方法包括:对待处理字符数据进行词性标注,划分出显性字符数据或/和隐性字符数据;从所述显性字符数据中查找出具有预定义字符数据类型的数据,作为所述显性字符数据的预定义字符数据;从基准字符数据的中心实体中查找出具有所述预定义字符数据类型的数据,作为与所述隐性字符数据相对应的预定义字符数据。本发明还提供一种获取预定义字符数据的装置。本发明可按照用户的需求,选择预定义类型的字符数据,对于处理语法形式不规则的句子,尤其是句子中本身不存在显性对象的句子,提高了获得的结果范围、准确度。

    一种从新闻列表页抽取新闻记录元数据的方法及系统

    公开(公告)号:CN102467501B

    公开(公告)日:2013-09-18

    申请号:CN201010530643.9

    申请日:2010-10-29

    Abstract: 本发明公开了一种从新闻列表页抽取新闻记录元数据的方法及系统。本发明首先获取目标新闻列表页的网页源代码,按照所述网页源代码对应的HTML文本顺序生成HTML标签树;然后遍历所述HTML标签树,计算每个HTML标签子树的文本链接比得分,将文本链接比得分大于设定阈值的标签子树进行合并,获取一棵最大候选子树;最后从所述最大候选子树中抽取新闻记录元数据列表。采用本发明,用户只需输入新闻列表页,无需配置模板即可得到新闻记录,完全实现了新闻资讯网站列表页新闻记录抽取的自动化、无人化。而且无需关心新闻网站将来是否改版,极大降低了维护和使用成本。

    相关搜索的实现方法和装置

    公开(公告)号:CN103198079A

    公开(公告)日:2013-07-10

    申请号:CN201210004943.2

    申请日:2012-01-06

    Abstract: 本发明提供了一种相关搜索的实现方法,包括:获取用户输入的搜索需求字符串;将搜索需求字符串分词得到多个查询词;在倒排索引中得到各个查询词的有序相关搜索列表;将各个查询词的有序相关搜索列表返回给用户。本发明提供了一种相关搜索的实现装置,包括:获取模块,用于获取用户输入的搜索需求字符串;分词模块,用于将搜索需求字符串分词得到多个查询词;列表模块,用于在倒排索引中得到各个查询词的有序相关搜索列表;提交模块,用于将各个查询词的有序相关搜索列表返回给用户。本发明可以高效率地向用户提供相关搜索。

    一种搜索提示方法及系统

    公开(公告)号:CN103186615A

    公开(公告)日:2013-07-03

    申请号:CN201110457125.3

    申请日:2011-12-30

    Abstract: 本发明公开了一种搜索提示方法及系统,其中,所述搜索提示方法,包括:获得用户输入的搜索信息;判断所述搜索信息是否合法;在所述搜索信息合法时,基于生成的搜索提示词典,并返回与所述搜索信息对应的搜索提示词;在所述搜索信息不合法时,基于生成的拼写错误提示词典,并返回与所述搜索信息对应的至少两条错误提示信息。采用上述方案,由于基于双数组构建了提示词典,在搜索提示查询时,提高了查询效率,解决了现有技术中存在的搜索提示信息和拼写错误提示信息不准确或者选项很少的问题。

Patent Agency Ranking