Patent search ap:("中国科学院计算技术研究所") AND inv:"余智华" Page 4

31.

发明公开
快速内容分析的多关键词匹配方法失效

公开(公告)号：CN1508721A

公开(公告)日：2004-06-30

申请号：CN02157881.8

申请日：2002-12-20

Applicant: 中国科学院计算技术研究所

Inventor： 谭建龙 , 卜东波 , 张鑫 , 余智华 , 郭莉

IPC: G06F17/22 , G06F17/00 , G06F11/00 , G06F12/14

Abstract: 本发明一种快速内容分析的多关键词匹配方法，包括如下步骤：1)对关键词进行预处理；2)根据字符在关键词中出现的概率，建立每个字符的哈夫曼编码，然后把每个关键词编码为一个整数；3)使用全部关键词建立一张检测表；4)对文本进行扫描；5)使用该检测表，快速的进行文本内容分析。它能根据关键词中的每个字的出现频率，进行动态调整，从而提高多关键词匹配的速度。与传统的文件内容分析相比，本发明的特点是：针对大量短关键词集合设计了新的基于哈夫曼编码的多关键词匹配算法(Huff－Match)。使用这种新算法，提高了内容分析系统的性能。本发明适用于高性能网络信息过滤、入侵检测、信息监控、病毒检测等领域。

32.

发明授权
大规模网络数据的感知与获取方法和系统有权

公开(公告)号：CN109815382B

公开(公告)日：2022-07-12

申请号：CN201811634238.4

申请日：2018-12-29

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 史存会 , 俞晓明 , 郭岩 , 贺广福 , 孟剑 , 周秀花 , 姜世勇 , 肖若晗 , 赵岭 , 张乐 , 焦利颖 , 周映彤 , 周术夏 , 余智华 , 刘悦

IPC: G06F16/951

Abstract: 本发明涉及一种大规模网络数据的感知与获取方法，包括：感知网络数据的信息来源并将其拆分为信源，对该信源设置采集策略；生成采集任务，注册采集节点，以该注册节点拉取采集器并对其进行配置；根据该采集策略，通过该采集器执行该采集任务，获取结构化数据；监控该采集任务的执行状态，统计该结构化数据，并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统，按照不同的功能逻辑，划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台，本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。

33.

发明授权
用于大规模网络数据采集的监控与统计分析方法和系统有权

公开(公告)号：CN109819019B

公开(公告)日：2021-04-27

申请号：CN201811634634.7

申请日：2018-12-29

Applicant: 中国科学院计算技术研究所

Inventor： 贺广福 , 程学旗 , 孟剑 , 俞晓明 , 史存会 , 姜世勇 , 肖若晗 , 郭岩 , 周秀花 , 余智华 , 刘悦

IPC: H04L29/08

Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法，包括：用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态；对使用信源采集的结构化数据进行统计，以获取针对该信源的采集量，以及该信源的活跃等级，并根据该用户的查询请求，将该采集量和/或该活跃等级发送给该用户；通过比较该采集量的变化量和/或该结构化数据的相似度的变化量，获取该信源的实时状态，发现潜在失效信源，并推送给该用户，以辅助该用户对该信源进行管理。

34.

发明授权
一种数据库集群节点间数据同步系统有权

公开(公告)号：CN108090222B

公开(公告)日：2020-07-07

申请号：CN201810011460.2

申请日：2018-01-05

Applicant: 中国科学院计算技术研究所 , 中科天玑数据科技股份有限公司

Inventor： 程学旗 , 罗远浩 , 郑天祺 , 何文婷 , 余智华 , 许洪波 , 曹雷

IPC: G06F16/27

Abstract: 本发明公开了一种数据库集群节点间数据同步系统，涉及数据处理领域。所述系统包括配置单元、元数据存储单元、元数据判断单元、读写判断单元、Paxos同步单元、日志存储单元和日志重现单元。本发明解决了现有数据库同步方法中异步方式可能导致数据库集群数据不一致的问题，也解决了同步方式可能因为某个节点阻塞导致性能低下的问题；最后，本发明所述数据库集群节点间数据同步系统也支持不同方向的数据同步，没有只能将数据从主数据库同步到从数据库的限制。

35.

发明公开
用于大规模网络数据采集的监控与统计分析方法和系统有权

公开(公告)号：CN109819019A

公开(公告)日：2019-05-28

申请号：CN201811634634.7

申请日：2018-12-29

Applicant: 中国科学院计算技术研究所

Inventor： 贺广福 , 程学旗 , 孟剑 , 俞晓明 , 史存会 , 姜世勇 , 肖若晗 , 郭岩 , 周秀花 , 余智华 , 刘悦

IPC: H04L29/08

Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法，包括：用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态；对使用信源采集的结构化数据进行统计，以获取针对该信源的采集量，以及该信源的活跃等级，并根据该用户的查询请求，将该采集量和/或该活跃等级发送给该用户；通过比较该采集量的变化量和/或该结构化数据的相似度的变化量，获取该信源的实时状态，发现潜在失效信源，并推送给该用户，以辅助该用户对该信源进行管理。

36.

发明公开
一种基于脚本的网页采集服务方法和系统有权

公开(公告)号：CN109815387A

公开(公告)日：2019-05-28

申请号：CN201811637869.1

申请日：2018-12-29

Applicant: 中国科学院计算技术研究所

Inventor： 张凯 , 程学旗 , 俞晓明 , 刘悦 , 余智华 , 孙海洲

IPC: G06F16/953

Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统，包括：客户端，服务前端和服务执行单元，服务执行单元处理服务请求的过程包括：根据脚本队列中采集脚本的顺序，调度脚本队列中位于队首的采集脚本作为执行脚本；解释执行执行脚本，当执行脚本执行到调用函数时，判断调用函数是否为采集函数，若是，则将采集网页的任务发给网页采集模块，对执行脚本指定的网址进行网页采集处理，得到网址的网页信息作为采集函数的返回值，否则执行调用函数调用的功能，并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务，适应性更强。

37.

发明公开
一种数据库集群节点间数据同步系统有权

公开(公告)号：CN108090222A

公开(公告)日：2018-05-29

申请号：CN201810011460.2

申请日：2018-01-05

Applicant: 中国科学院计算技术研究所 , 中科天玑数据科技股份有限公司

Inventor： 程学旗 , 罗远浩 , 郑天祺 , 何文婷 , 余智华 , 许洪波 , 曹雷

IPC: G06F17/30

Abstract: 本发明公开了一种数据库集群节点间数据同步系统，涉及数据处理领域。所述系统包括配置单元、元数据存储单元、元数据判断单元、读写判断单元、Paxos同步单元、日志存储单元和日志重现单元。本发明解决了现有数据库同步方法中异步方式可能导致数据库集群数据不一致的问题，也解决了同步方式可能因为某个节点阻塞导致性能低下的问题；最后，本发明所述数据库集群节点间数据同步系统也支持不同方向的数据同步，没有只能将数据从主数据库同步到从数据库的限制。

38.

发明授权
一种从单记录网页中抽取规律噪音的方法有权许可

公开(公告)号：CN103064966B

公开(公告)日：2016-01-27

申请号：CN201210592795.0

申请日：2012-12-31

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 李海燕 , 郭岩 , 万圣贤 , 郭少华 , 刘悦 , 余智华

IPC: G06F17/30

Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法，所述方法包括：首先将多个单记录网页转化为DOM树，并且将所述DOM树按照结构进行分类；然后，将同一类别的DOM树进行对齐合并得到站点板块风格树；在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置，最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置，抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况，加快了抽取速度；此外，本发明的抽取结果具有较高的准确性，取得了较好的效果，并且可靠性高。

39.

发明公开
一种面向网络用户的个性化文本排序及推荐方法有权

公开(公告)号：CN104298732A

公开(公告)日：2015-01-21

申请号：CN201410514028.7

申请日：2014-09-29

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 杜慧 , 张瑾 , 黄康平 , 余智华 , 刘悦 , 刘玮

IPC: G06F17/30

CPC classification number: G06F17/30867

Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法，所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则，执行以下步骤：1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本，计算该文本与该兴趣规则对应的表达式树的相似度；其中，表达式树是根据兴趣规则中包括的表达式建立的，表达式树中的节点分为运算符节点和文本节点，文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小，对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。

40.

发明公开
一种网页信息的抽取方法和系统有权许可

公开(公告)号：CN103870506A

公开(公告)日：2014-06-18

申请号：CN201210548678.4

申请日：2012-12-17

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 万圣贤 , 余钧 , 郭岩 , 刘悦 , 张瑾 , 余智华

IPC: G06F17/30

CPC classification number: G06F17/30864 , G06F17/30929

Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括：获得已标注网页，生成语义结构树，构建信息模式图，生成信息模式图中每个语义属性节点的语义属性节点信息，生成包装器，将包装器导出为包装器文件；构建用于抽取已标注网页的同类网页的抽取器；获得待抽取网页，抽取器在待抽取网页的DOM树中，从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区；导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度，同时本发明也保证了在线抽取的效率，从而具有较高的实用性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification