-
公开(公告)号:CN109871502B
公开(公告)日:2020-10-30
申请号:CN201910047920.1
申请日:2019-01-18
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/958 , G06F16/957
Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。
-
公开(公告)号:CN109871502A
公开(公告)日:2019-06-11
申请号:CN201910047920.1
申请日:2019-01-18
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/958 , G06F16/957
Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。
-
公开(公告)号:CN109726177A
公开(公告)日:2019-05-07
申请号:CN201811635130.7
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的海量文件分区索引方法,属于计算机领域。加载配置文件,对存储系统HBase按照配置规则进行配置;对写入的某个小文件提取元数据;根据各个元数据,分别计算该文件需要写入的桶的分区;拼接出唯一Hash码作为该小文件的Rowkey,若该Rowkey存在于分区索引表,将元数据中记录的版本编号加1,并删除老版本元数据;若不存在则当该小文件的内容需要实时合并时,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并。将所有小文件进行存储,读取每个小文件的元数据表,并进行更新,利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,具有很广泛的应用前景。
-
公开(公告)号:CN107220347A
公开(公告)日:2017-09-29
申请号:CN201710390490.4
申请日:2017-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法,属于计算机技术领域。所述算法包括:用表达式解析模块对用户输入的表达式进行合法性检查,并转化为系统可以计算的形式;表达式计算模块根据表达式中的参数,在Lucene索引中提取出相应字段进行计算;相关度排序模块对表达式的计算结果进行排序;最后用结果整合模块对各数据节点返回的计算结果进行整合,将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算,并按照其进行排序,优于单纯的文档打分排序机制,而且该发明支持更多的函数计算,且该算法适用于分布式的大数据平台上。
-
公开(公告)号:CN112347044B
公开(公告)日:2024-04-12
申请号:CN202011247634.9
申请日:2020-11-10
Applicant: 北京赛思信安技术股份有限公司
Inventor: 孟宪文
IPC: G06F16/13 , G06F16/16 , G06F16/172 , G06F16/182 , G06F3/06
Abstract: 本发明是一种基于SPDK的对象存储优化方法,属于数据存储技术领域。本发明方法包括:配置对象存储系统至少包含3台服务器,每台服务器至少配有1块SSD盘及多块HDD盘,并在对象存储系统安装好SPDK(存储性能开发工具包)驱动库;对象存储系统启动并初始化,自动配置好索引数据的SSD盘和对象数据的HDD盘;上层业务通过对象存储系统的类S3接口写入或读取对象数据;在写入时,对象的索引信息通过SPDK的文件写入接口操作磁盘直接持久化到SSD盘,对象的content通过Linux文件系统接口直接持久化到HDD盘。采用本发明方法提高了对象存储系统的响应速率,提高了对象存储的整体性能,实现了成本和性能的权衡。
-
公开(公告)号:CN112685419B
公开(公告)日:2021-09-10
申请号:CN202011622773.5
申请日:2020-12-31
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/22 , G06F16/23 , G06F16/2458 , G06F16/27 , G06F9/54
Abstract: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。
-
公开(公告)号:CN112685419A
公开(公告)日:2021-04-20
申请号:CN202011622773.5
申请日:2020-12-31
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/22 , G06F16/23 , G06F16/2458 , G06F16/27 , G06F9/54
Abstract: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。
-
公开(公告)号:CN107220347B
公开(公告)日:2020-07-03
申请号:CN201710390490.4
申请日:2017-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC: G06F16/338 , G06F16/33
Abstract: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法,属于计算机技术领域。所述算法包括:用表达式解析模块对用户输入的表达式进行合法性检查,并转化为系统可以计算的形式;表达式计算模块根据表达式中的参数,在Lucene索引中提取出相应字段进行计算;相关度排序模块对表达式的计算结果进行排序;最后用结果整合模块对各数据节点返回的计算结果进行整合,将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算,并按照其进行排序,优于单纯的文档打分排序机制,而且该发明支持更多的函数计算,且该算法适用于分布式的大数据平台上。
-
公开(公告)号:CN112347044A
公开(公告)日:2021-02-09
申请号:CN202011247634.9
申请日:2020-11-10
Applicant: 北京赛思信安技术股份有限公司
Inventor: 孟宪文
IPC: G06F16/13 , G06F16/16 , G06F16/172 , G06F16/182 , G06F3/06
Abstract: 本发明是一种基于SPDK的对象存储优化方法,属于数据存储技术领域。本发明方法包括:配置对象存储系统至少包含3台服务器,每台服务器至少配有1块SSD盘及多块HDD盘,并在对象存储系统安装好SPDK(存储性能开发工具包)驱动库;对象存储系统启动并初始化,自动配置好索引数据的SSD盘和对象数据的HDD盘;上层业务通过对象存储系统的类S3接口写入或读取对象数据;在写入时,对象的索引信息通过SPDK的文件写入接口操作磁盘直接持久化到SSD盘,对象的content通过Linux文件系统接口直接持久化到HDD盘。采用本发明方法提高了对象存储系统的响应速率,提高了对象存储的整体性能,实现了成本和性能的权衡。
-
-
-
-
-
-
-
-