一种暗网数据采集与抽取系统及方法

    公开(公告)号:CN107808000B

    公开(公告)日:2020-05-22

    申请号:CN201711115185.0

    申请日:2017-11-13

    Abstract: 本发明涉及一种暗网数据采集与抽取系统及方法,包括依次连接的暗网站点发现模块、暗网数据爬取模块、页面解析与内容抽取模块、数据融合与存储模块;暗网站点发现模块获取多源数据中的暗网url;暗网数据爬取模块配置Tor服务,修改Nutch的配置,使其与socks协议交互,进行数据的爬取;页面解析与内容抽取模块进行页面解析、页面向量化、特征码生成、相似度计算与模板集更新、页面内容抽取;数据融合与存储模块采用数据对齐策略对抽取得到的内容重组,将内容相近的数据记录融合存入数据库中。本发明实现了完整的页面保存到内容抽取的系统设计流程,为暗网中违法交易活动的发现与暗网知识图谱的建立提供数据支撑。

    一种暗网数据采集与抽取系统及方法

    公开(公告)号:CN107808000A

    公开(公告)日:2018-03-16

    申请号:CN201711115185.0

    申请日:2017-11-13

    Abstract: 本发明涉及一种暗网数据采集与抽取系统及方法,包括依次连接的暗网站点发现模块、暗网数据爬取模块、页面解析与内容抽取模块、数据融合与存储模块;暗网站点发现模块获取多源数据中的暗网url;暗网数据爬取模块配置Tor服务,修改Nutch的配置,使其与socks协议交互,进行数据的爬取;页面解析与内容抽取模块进行页面解析、页面向量化、特征码生成、相似度计算与模板集更新、页面内容抽取;数据融合与存储模块采用数据对齐策略对抽取得到的内容重组,将内容相近的数据记录融合存入数据库中。本发明实现了完整的页面保存到内容抽取的系统设计流程,为暗网中违法交易活动的发现与暗网知识图谱的建立提供数据支撑。

Patent Agency Ranking