一种基于Storm的流数据正则匹配方法

    公开(公告)号:CN109871502B

    公开(公告)日:2020-10-30

    申请号:CN201910047920.1

    申请日:2019-01-18

    Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。

    一种基于Storm的流数据正则匹配方法

    公开(公告)号:CN109871502A

    公开(公告)日:2019-06-11

    申请号:CN201910047920.1

    申请日:2019-01-18

    Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。

    一种基于HBase的海量文件分区索引方法

    公开(公告)号:CN109726177A

    公开(公告)日:2019-05-07

    申请号:CN201811635130.7

    申请日:2018-12-29

    Abstract: 本发明公开了一种基于HBase的海量文件分区索引方法,属于计算机领域。加载配置文件,对存储系统HBase按照配置规则进行配置;对写入的某个小文件提取元数据;根据各个元数据,分别计算该文件需要写入的桶的分区;拼接出唯一Hash码作为该小文件的Rowkey,若该Rowkey存在于分区索引表,将元数据中记录的版本编号加1,并删除老版本元数据;若不存在则当该小文件的内容需要实时合并时,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并。将所有小文件进行存储,读取每个小文件的元数据表,并进行更新,利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,具有很广泛的应用前景。

    一种基于SPDK的对象存储优化方法

    公开(公告)号:CN112347044B

    公开(公告)日:2024-04-12

    申请号:CN202011247634.9

    申请日:2020-11-10

    Inventor: 孟宪文

    Abstract: 本发明是一种基于SPDK的对象存储优化方法,属于数据存储技术领域。本发明方法包括:配置对象存储系统至少包含3台服务器,每台服务器至少配有1块SSD盘及多块HDD盘,并在对象存储系统安装好SPDK(存储性能开发工具包)驱动库;对象存储系统启动并初始化,自动配置好索引数据的SSD盘和对象数据的HDD盘;上层业务通过对象存储系统的类S3接口写入或读取对象数据;在写入时,对象的索引信息通过SPDK的文件写入接口操作磁盘直接持久化到SSD盘,对象的content通过Linux文件系统接口直接持久化到HDD盘。采用本发明方法提高了对象存储系统的响应速率,提高了对象存储的整体性能,实现了成本和性能的权衡。

    一种可保持janusGraph数据一致性的分布式高效并行加载方法

    公开(公告)号:CN112685419B

    公开(公告)日:2021-09-10

    申请号:CN202011622773.5

    申请日:2020-12-31

    Inventor: 谢铭 蒲路 孟宪文

    Abstract: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。

    一种可保持janusGraph数据一致性的分布式高效并行加载方法

    公开(公告)号:CN112685419A

    公开(公告)日:2021-04-20

    申请号:CN202011622773.5

    申请日:2020-12-31

    Inventor: 谢铭 蒲路 孟宪文

    Abstract: 本发明公开了一种可保持janusGraph实时数据一致性的高效并行加载方法,属于分布式图数据库领域,首先构建分布式结构;创建两个空的分布式队列;然后,实时接收数据并解析后存入队列一中;数据处理模块逐条取出,调用分布式索引模块中存在对应ID的数据加载到图数据库中,并将无法调用ID的点的唯一标志存入队列二中,点处理模块判断能否获取各标志对应的ID,如果能,则继续获取下一个进行判断;否则,将各标志加载到图数据库中,并产生对应的ID;同时将S与ID的对应关系保存;集群管理模块找寻主节点,并对各子节点分发任务,各子节点并行处理各自的分布式队列分区中的数据。本发明保证数据一致性的同时提高实时数据的并行加载。

    一种基于SPDK的对象存储优化方法

    公开(公告)号:CN112347044A

    公开(公告)日:2021-02-09

    申请号:CN202011247634.9

    申请日:2020-11-10

    Inventor: 孟宪文

    Abstract: 本发明是一种基于SPDK的对象存储优化方法,属于数据存储技术领域。本发明方法包括:配置对象存储系统至少包含3台服务器,每台服务器至少配有1块SSD盘及多块HDD盘,并在对象存储系统安装好SPDK(存储性能开发工具包)驱动库;对象存储系统启动并初始化,自动配置好索引数据的SSD盘和对象数据的HDD盘;上层业务通过对象存储系统的类S3接口写入或读取对象数据;在写入时,对象的索引信息通过SPDK的文件写入接口操作磁盘直接持久化到SSD盘,对象的content通过Linux文件系统接口直接持久化到HDD盘。采用本发明方法提高了对象存储系统的响应速率,提高了对象存储的整体性能,实现了成本和性能的权衡。

Patent Agency Ranking