-
公开(公告)号:CN109657114A
公开(公告)日:2019-04-19
申请号:CN201810953361.6
申请日:2018-08-21
申请人: 国家计算机网络与信息安全管理中心 , 中科国力(镇江)智能技术有限公司
IPC分类号: G06F16/951 , G06F16/9535 , G06F16/81
摘要: 本发明公开了一种抽取网页半结构化数据的方法,包括:从web站点爬取页面;人工定制化爬取目标页的url;配置一类网站的关键词词根;对类似的网页进行分析,根据case1,case2,case3进行分类判别,并对复杂的嵌套情况加以处理,抽取出网页模板。通过指定的url选出同类(栏目)url,同栏目url对应的html文本结构相似,遍历所有html节点,通过节点间的联系或节点本身,发现对应关键词的模板。从一个网站的所有子url中,找出和人工给定的相似的url。把目标格式分为case1,case2,case3,三种情况,对每一种情况分别进行处理,生成网页模板。
-
公开(公告)号:CN109657114B
公开(公告)日:2023-11-03
申请号:CN201810953361.6
申请日:2018-08-21
申请人: 国家计算机网络与信息安全管理中心 , 中科国力(镇江)智能技术有限公司
IPC分类号: G06F16/951 , G06F16/9535 , G06F16/81
摘要: 本发明公开了一种抽取网页半结构化数据的方法,包括:从web站点爬取页面;人工定制化爬取目标页的url;配置一类网站的关键词词根;对类似的网页进行分析,根据case1,case2,case3进行分类判别,并对复杂的嵌套情况加以处理,抽取出网页模板。通过指定的url选出同类(栏目)url,同栏目url对应的html文本结构相似,遍历所有html节点,通过节点间的联系或节点本身,发现对应关键词的模板。从一个网站的所有子url中,找出和人工给定的相似的url。把目标格式分为case1,case2,case3,三种情况,对每一种情况分别进行处理,生成网页模板。
-
公开(公告)号:CN107220347B
公开(公告)日:2020-07-03
申请号:CN201710390490.4
申请日:2017-05-27
申请人: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC分类号: G06F16/338 , G06F16/33
摘要: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法,属于计算机技术领域。所述算法包括:用表达式解析模块对用户输入的表达式进行合法性检查,并转化为系统可以计算的形式;表达式计算模块根据表达式中的参数,在Lucene索引中提取出相应字段进行计算;相关度排序模块对表达式的计算结果进行排序;最后用结果整合模块对各数据节点返回的计算结果进行整合,将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算,并按照其进行排序,优于单纯的文档打分排序机制,而且该发明支持更多的函数计算,且该算法适用于分布式的大数据平台上。
-
公开(公告)号:CN107066450B
公开(公告)日:2020-04-10
申请号:CN201710391483.6
申请日:2017-05-27
申请人: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
摘要: 本发明公开了一种基于学习的即时通信会话切分技术与方法,属于大数据分析领域;将即时通信会话用户两两划分为一组,并将每组的会话话单明细进行分类和基于时间排序;会话切分为:依次选取相邻两条话单R1和R2,计算时间间隔Δt,文本内容相似度Δsim和距离值F(R1,R2);如果F(R1,R2)
-
公开(公告)号:CN108009807A
公开(公告)日:2018-05-08
申请号:CN201710965814.2
申请日:2017-10-17
申请人: 国家计算机网络与信息安全管理中心 , 北京理工大学
摘要: 本发明提供一种比特币交易身份标识方法,包括以下步骤:在比特币网络中部署连接尽可能多的节点的探针节点;挑选比特币网络中的待监测节点;通过探针节点确定该待监测节点的邻居节点;监听并获取比特币网络交易信息及交易传播路径;计算交易传播路径与待监测节点及其邻居节点的匹配值;通过阈值筛选出待监测节点的匹配交易;输出该匹配交易并赋予其IP标签。通过对比特币交易与交易者IP地址的匹配标识,识别交易者的身份,不但具有较高的识别准确率,而且较现有技术开销大幅降低。
-
公开(公告)号:CN107038260A
公开(公告)日:2017-08-11
申请号:CN201710390469.4
申请日:2017-05-27
申请人: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种可保持titan实时数据一致性的高效并行加载方法,属于大数据处理领域;首先,将titan划分为7个并行工作的模块,清洗规则管理模块实时更新过滤规则;数据接收模块接收pieceOfData放入queue1中;数据清洗模块过滤合格数据放入queue2中;ID转换模块与高速索引模块交互,判断当前pieceOfData中的两个点与titan ID的对应关系是否存在与图数据库中;如果是,将titan内部ID属性与ID值替换点保存到pieceOfDataT中,放入到queue4中;否则,将未加载的点放入HashSet中,并将对应的pieceOfData放入queue3中;剩余数据加载模块多线程并行将pieceOfDataT加载到titan中;点加载模块负责将HashSet中点加入titan,将点与titan ID的对应关系加入高速索引模块。本发明每个模块独自或交互完成部分功能,从而实现整体上加载效率的提升。
-
公开(公告)号:CN106066843A
公开(公告)日:2016-11-02
申请号:CN201610384154.4
申请日:2016-06-02
申请人: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
CPC分类号: G06F13/423 , G06F2213/0024 , H03M7/14
摘要: 本发明公开了一种高速Base64并行编解码装置,其特征在于,包括用于数据理的编码模块和解码模块,其中编码模块包括:至少一个数据接收模块,至少一个编码控制模块,至少一个数据发送模块,解码模块包括:至少一个数据接收模块,至少一个解码控制模块,至少一个数据发送模块;本发明基于FPGA平台,实现了Base64编解码的16字节的并行处理,提升了Base64编解码的效率,并有效降低了CPU的资源消耗。
-
公开(公告)号:CN107844575B
公开(公告)日:2021-10-15
申请号:CN201711081231.X
申请日:2017-11-06
申请人: 国家计算机网络与信息安全管理中心 , 深圳市任子行科技开发有限公司
IPC分类号: G06F16/953 , G06F16/955 , G06F16/51 , G06F16/2455 , G06F16/27 , G06F11/14 , G06Q40/02
摘要: 本发明提供了一种用于互联网金融平台的个人数据共享系统,包括数据接收模块,用于接收互联网金融平台的上报数据;数据处理模块,用于对上报数据进行处理,利用上报数据更新查询缓存模块和图数据库,同时将上报数据写入上报数据存储数据库;上报数据存储数据库,用于存储上报数据;数据核验模块,用于基于上报数据定期对查询缓存模块和图数据库内的数据进行数据一致性核验;数据查询模块,用于为互联网金融平台提供查询接口,根据互联网金融平台的查询请求,查询用户的金融借贷信息。由此,实现了互联网金融企业的个人逾期数据共享,打破了信息孤岛,为个人信用在互联网网贷方面的风险评估提供了强力的数据支撑。
-
公开(公告)号:CN111709737A
公开(公告)日:2020-09-25
申请号:CN202010414739.2
申请日:2020-05-15
申请人: 国家计算机网络与信息安全管理中心
摘要: 本申请提供的比特币交易信息确定方法、装置、存储介质和电子设备,获取比特币交易痕迹信息,所述比特币交易痕迹信息中包含目标用户信息;从比特币账本中,确定与所述比特币交易痕迹信息对应的关联账本记录;根据所述目标用户信息,确定所述关联账本记录对应的交易用户信息。本申请的技术方案可以确定关联账本记录对应的交易用户信息,进而较准确地推测出比特币账本中的匿名地址对应的交易用户信息,为比特币的使用带来了方便。
-
公开(公告)号:CN111612616A
公开(公告)日:2020-09-01
申请号:CN202010121882.2
申请日:2020-02-27
申请人: 湖南天河国云科技有限公司 , 国家计算机网络与信息安全管理中心
IPC分类号: G06Q40/04
摘要: 本发明公开了一种区块链账户评估方法、装置、终端设备及计算机可读介质,所述区块链账户评估方法包括;通过实时获取区块链上账户间的交易信息,以构建账户关系模型图;根据账户关系模型图获取目标账户的交易信息;根据目标账户的交易信息以及预设的评价计算模型获取目标账户的信用值,以对目标账户进行评价。本发明可以定量评价账户的信用值,或者统计业务在不同时间段的发展情况,能为相关行业的人员提供可靠、可信的参考依据。
-
-
-
-
-
-
-
-
-