快速内容分析的多关键词匹配方法

    公开(公告)号:CN1508721A

    公开(公告)日:2004-06-30

    申请号:CN02157881.8

    申请日:2002-12-20

    Abstract: 本发明一种快速内容分析的多关键词匹配方法,包括如下步骤:1)对关键词进行预处理;2)根据字符在关键词中出现的概率,建立每个字符的哈夫曼编码,然后把每个关键词编码为一个整数;3)使用全部关键词建立一张检测表;4)对文本进行扫描;5)使用该检测表,快速的进行文本内容分析。它能根据关键词中的每个字的出现频率,进行动态调整,从而提高多关键词匹配的速度。与传统的文件内容分析相比,本发明的特点是:针对大量短关键词集合设计了新的基于哈夫曼编码的多关键词匹配算法(Huff-Match)。使用这种新算法,提高了内容分析系统的性能。本发明适用于高性能网络信息过滤、入侵检测、信息监控、病毒检测等领域。

    大规模网络数据的感知与获取方法和系统

    公开(公告)号:CN109815382B

    公开(公告)日:2022-07-12

    申请号:CN201811634238.4

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。

    一种基于脚本的网页采集服务方法和系统

    公开(公告)号:CN109815387A

    公开(公告)日:2019-05-28

    申请号:CN201811637869.1

    申请日:2018-12-29

    Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。

    一种从单记录网页中抽取规律噪音的方法

    公开(公告)号:CN103064966B

    公开(公告)日:2016-01-27

    申请号:CN201210592795.0

    申请日:2012-12-31

    Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。

    一种面向网络用户的个性化文本排序及推荐方法

    公开(公告)号:CN104298732A

    公开(公告)日:2015-01-21

    申请号:CN201410514028.7

    申请日:2014-09-29

    CPC classification number: G06F17/30867

    Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。

    一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506A

    公开(公告)日:2014-06-18

    申请号:CN201210548678.4

    申请日:2012-12-17

    CPC classification number: G06F17/30864 G06F17/30929

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

Patent Agency Ranking