基于云服务的数据传播性分析预测方法及系统

    公开(公告)号:CN104216889A

    公开(公告)日:2014-12-17

    申请号:CN201310210101.7

    申请日:2013-05-30

    CPC classification number: G06F17/30864 H04L67/10

    Abstract: 本发明公开了一种基于云服务的数据传播性分析预测方法及系统,首先在需要进行数据分析预测的多个地点分别建立云端,并建立与云端相对应的多个数据分析云平台,每个分析云平台对其对应云端所采集或接收到的网络数据进行数据分类,然后建立所有云端共享的数据模型库,将分析云平台分类后的网络数据加入数据模型库的数据模型中,对不同数据模型进行网络数据的监控、挖掘和分析,最后通过数据交互平台,展示数据模型库的分析和挖掘结果。通过本发明所述的方法及系统,能够提供有效的数据挖掘模型库,可以根据用户需要通过交互平台展示给用户最有效最关心的信息,并可监控分析信息的传播趋势,提供有效的数据传播性分析预测。

    一种分布式互联网信息下载系统及方法

    公开(公告)号:CN103905515A

    公开(公告)日:2014-07-02

    申请号:CN201210587234.1

    申请日:2012-12-28

    CPC classification number: G06F9/54

    Abstract: 本发明公开了一种分布式互联网信息下载系统及方法,首先由分发子系统接收用户的下载任务信息,并将下载任务信息发送到下载子系统;然后由下载子系统根据下载任务信息下载任务结果信息,并将任务结果信息发送到分发子系统;最后由分发子系统接收任务结果信息,并将任务结果信息回送给发起请求的用户。该系统物理环境包括了一个分发服务器和下载子系统群,系统的内部的工作方式是基于队列模型对需要获取的任务进行分配给下载子系统群,下载子系统群可以并发的处理所分配到的任务。该系统及方法适用于互联网的大数据量的采集,能够有效提高信息获取的效率及时效性。

    一种信息采集方法和装置

    公开(公告)号:CN103593344A

    公开(公告)日:2014-02-19

    申请号:CN201210287661.8

    申请日:2012-08-13

    Inventor: 吴新丽 杨建武

    CPC classification number: G06F17/2235 G06F17/30867 G06F17/3089 G06F17/30882

    Abstract: 本发明公开一种信息采集方法和装置,该方法包括:确定待采集的电子布告栏系统网络站点的地址信息和信息采集规则;当接收到获取任一网络站点内容的信息采集请求时,获取所述网络站点的入口链接主地址和副地址;通过入口链接主地址和入口链接副地址确定所述网络站点对应的版面页面,并从版面页面源代码文件中抽取该版面页面所包含的每个帖子的概述信息;从所述概述信息中获取每个帖子的链接地址,并根据所述链接地址确定每个帖子的帖子页面,并从帖子页面源代码文件中抽取每个帖子的内容信息。通过上述方法能够实时采集电子布告栏系统网络站点上发布的最新主贴和回帖信息,并能够对回帖进行增量采集。

    一种互联网新闻事件报道趋势分析方法及系统

    公开(公告)号:CN103198078A

    公开(公告)日:2013-07-10

    申请号:CN201210004878.3

    申请日:2012-01-09

    Abstract: 本发明公开了一种互联网新闻事件报道趋势分析方法及系统,涉及互联网信息分析领域。现有的新闻事件发展趋势的分析方法不能够了解新闻事件的主题信息或者不能够对其数据来源进行筛选。本发明所述方法及系统以用户所关心的新闻事件为起点,根据设置的新闻事件的特征信息对互联网中用户可能关心的新闻信息进行采集并进行初步筛选,然后分析得出新闻事件的主题,并根据不同周期内的主题及关联信息量得出转化主题,最后将各主题及其相关报道数量随时间发展的分布趋势进行展现。通过该方法及系统,用户可以更直观、方便地掌握互联网新闻事件的发展趋势和传播规律。

    用于内容资源数据库的日期检索方法和装置

    公开(公告)号:CN103136274A

    公开(公告)日:2013-06-05

    申请号:CN201110396422.1

    申请日:2011-12-02

    Abstract: 本发明提供了一种用于内容资源数据库的日期检索方法,包括:将待检索日期范围与内容资源数据库的多个日期索引子库的日期范围进行相交运算;对交集非空的多个日期索引子库检索待检索日期范围;将检索到的记录提交给用户。本发明提供了一种用于内容资源数据库的日期检索装置,包括:运算模块,用于将待检索日期范围与内容资源数据库的多个日期索引子库的日期范围进行相交运算;检索模块,用于对交集非空的多个日期索引子库检索待检索日期范围;提交模块,用于将检索到的记录提交给用户。本发明缩短了对内容资源数据库的日期检索的时间。

    一种从网页中抽取评论内容的方法和装置

    公开(公告)号:CN102117289B

    公开(公告)日:2012-10-10

    申请号:CN200910244539.0

    申请日:2009-12-30

    Abstract: 本发明公开了一种从网页中抽取评论内容的方法和装置,涉及信息处理技术,通过建立评论页面的DOM树,并选择符合评论区抽取规则的子树抽取出评论区,再利用评论记录间的结构相似性,抽取出评论区中的评论记录,利用包含评论内容的子树的差异性,选择标准差最大的子树作为包含评论内容的子树,最后选取稳定性最小的一条路径中,稳定性差绝对值最大的相邻节点中的孩子节点作为根节点,这个子树就是要抽取的评论内容。由于利用了评论内容的无结构特性来进行抽取,而不是根据网页的模板进行抽取,所以网页的不同不影响抽取的准确性,并且不需要根据网页的模板进行复杂的配置,并通过计算去除了噪声信息,提高了从网页中抽取评论内容的效率和准确性。

    一种论坛回帖增量采集方法及系统

    公开(公告)号:CN102567407A

    公开(公告)日:2012-07-11

    申请号:CN201010618393.4

    申请日:2010-12-22

    Inventor: 吴新丽 杨建武

    CPC classification number: G06F17/30887 G06F17/30876 G06F17/3089 G06Q10/10

    Abstract: 本发明公开了一种论坛回帖增量采集方法及系统,属于网络信息采集技术领域。本发明所述方法周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;如果存在,则从所述新增帖子中提取出主贴和回帖信息,从所述具有新回帖的帖子中提取出新回帖信息。本发明所述系统包括用于周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置(11);以及用于从新增帖子中提取出主贴和回帖信息,从具有新回帖的帖子中提取出新回帖信息的提取装置(12)。本发明能够快速、准确、完整地采集一篇帖子的所有主、回帖信息,从而解决了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或搜索不到的问题。

    获取预定义字符数据的方法和装置

    公开(公告)号:CN102110103A

    公开(公告)日:2011-06-29

    申请号:CN200910243515.3

    申请日:2009-12-25

    Abstract: 本发明提供了一种获取预定义字符数据的方法和装置,本发明的方法包括:对待处理字符数据进行词性标注,划分出显性字符数据或/和隐性字符数据;从所述显性字符数据中查找出具有预定义字符数据类型的数据,作为所述显性字符数据的预定义字符数据;从基准字符数据的中心实体中查找出具有所述预定义字符数据类型的数据,作为与所述隐性字符数据相对应的预定义字符数据。本发明还提供一种获取预定义字符数据的装置。本发明可按照用户的需求,选择预定义类型的字符数据,对于处理语法形式不规则的句子,尤其是句子中本身不存在显性对象的句子,提高了获得的结果范围、准确度。

    浏览器页面中文本的显示方法和装置

    公开(公告)号:CN107220267B

    公开(公告)日:2020-07-14

    申请号:CN201610166717.2

    申请日:2016-03-22

    Abstract: 本发明提供了一种浏览器页面中文本的显示方法和装置,该方法包括:获取网页文件中待显示文本的文字的编码,根据文字的编码范围判断待显示文本中是否含有至少两种语言的文字;若待显示文本中含有至少两种语言的文字,则按每种语言文字的呈现形态为每种语言的文字设置字号,并将设置的字号添加到对应的标记符中;根据标记符,对待显示的文本进行显示。实现了不同呈现形态的语言文字以不同的字号显示,能够使每种语言的文字均能被用户准确的识别,提高用户的体验。

Patent Agency Ranking