面向领域的暗网资源采集方法和系统

    公开(公告)号:CN103116635B

    公开(公告)日:2015-06-24

    申请号:CN201310049317.X

    申请日:2013-02-07

    Abstract: 本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;以及输出有效的查询所返回的结果,作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类,同时实现简单查询接口和复杂查询接口的查询的有效构造,从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中,而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。

    微博客数据采集方法及系统

    公开(公告)号:CN102609460B

    公开(公告)日:2015-02-04

    申请号:CN201210011178.7

    申请日:2012-01-13

    Abstract: 本发明提供了一种基于用户分类的微博客数据采集方法。该方法首先初始化用户进行用户分类的数据;对获得的用户特征进行提取,取得可用于进行用户确定的特征数据;对提取出的数据进行过滤,多过滤后的数据根据特征之间的关系进行用户类型确定;对不同类别的用户采用不同的策略进行数据采集。该方法能够保证微博客数据采集的完整性和实时性,并能进行自适应的调整,以适应网络数据的变化。

    文本情感倾向性分析方法

    公开(公告)号:CN101882136B

    公开(公告)日:2015-02-04

    申请号:CN200910083522.1

    申请日:2009-05-08

    Abstract: 本发明提供一种文本情感倾向性分析方法,包括下列步骤:1)根据训练文本的标签确定测试文本的初始情感分;2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。

    一种基于时间串的论坛页面信息自动抽取方法及系统

    公开(公告)号:CN104268148A

    公开(公告)日:2015-01-07

    申请号:CN201410429698.9

    申请日:2014-08-27

    CPC classification number: G06F17/30876

    Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签;根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

    一种新闻列表页判断方法及筛选新闻列表页的方法

    公开(公告)号:CN104182482A

    公开(公告)日:2014-12-03

    申请号:CN201410382359.X

    申请日:2014-08-06

    CPC classification number: G06F17/30873 G06F17/30867 G06F17/30876

    Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。

    分布式顺序表片内二级索引方法及系统

    公开(公告)号:CN104133867A

    公开(公告)日:2014-11-05

    申请号:CN201410345063.0

    申请日:2014-07-18

    Inventor: 查礼 万浩 程学旗

    CPC classification number: G06F17/30321

    Abstract: 本发明公开了一种分布式顺序表片内二级索引方法及系统,其中系统包括,索引布局管理模块,为每个数据存储文件创建对应的索引存储文件;一致性更新模块,写入数据时,先将该数据写入预写日志中,再写入内存存储中,若该内存存储中该数据部分丢失,将该预写入日志中未成功写入磁盘上的该数据重新写入该内存存储中;内存存储刷写模块,若该内存存储存量达到某阈值,先生成该内存存储中类型不为“删除”的数据记录对应的索引记录,并刷写该索引记录到该磁盘上生成该索引存储文件,再生成数据存储文件;合并和分裂模块,索引存储文件随着数据存储文件一起合并和分裂,保证两者的一致性;多维区间查询模块,对每个数据分片单独查询,一次查询可使用多列索引。

    在线社会网络中网络群体的检测方法及系统

    公开(公告)号:CN103198432B

    公开(公告)日:2014-11-05

    申请号:CN201310127459.3

    申请日:2013-04-12

    Abstract: 本发明提供一种在线社会网络中网络群体的检测方法,所采集的节点集中随机选择一个节点,从所选节点的邻居节点中选择未与所选节点建立群关系的且收益最大的邻居节点并在该邻居节点与所选节点之间建立群关系;对所选节点进行策略更新,并重新计算由于所选节点的策略更新所影响到的所有节点的收益;不断上述步骤,直到所述节点集中没有收益可改进的节点时,输出节点集中互相之间存在群关系的所有节点作为所检测的网络群体。该方法结合在线社会网络中节点的信息交互行为和节点间的社会关系,可以在在线社会关系网络中发现具有动态特性和行为因素影响的网络群体。

Patent Agency Ranking