一种基于列存数据库的流式数据处理方法及系统

    公开(公告)号:CN114185885A

    公开(公告)日:2022-03-15

    申请号:CN202111307991.4

    申请日:2021-11-05

    Abstract: 本发明提出一种基于列存数据的流式数据处理方法和系统,包括:获取待处理的列存流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,根据预设窗口模式为该批式数据块中每条数据分配窗口序号;将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取窗口对应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出任务执行结果,作为流式数据处理结果。本发明通过使用列存存储及计算引擎,结合预聚合技术,在保持较低延迟的前提下,提升数据分析场景的吞吐量。

    一种字符串散列表实现方法和系统

    公开(公告)号:CN110321346B

    公开(公告)日:2021-09-21

    申请号:CN201910450998.8

    申请日:2019-05-28

    Abstract: 本发明涉及一种字符串散列表实现方法,包括:根据字符串长度,将该字符串分发至对应的散列表;其中,该散列表包括数组散列表、数值型散列表和字符型双散列表。本发明使用多种异构散列表存储字符串,针对不同字符串的长度选择合适的散列表;同时针对短字符串,将短字符串划分为固定的几个长度区间,提高内存空间利用率,利用字符串变长的特性,为每种区间的散列槽预留末尾的1字节空间原地存储元数据信息;而针对长字符串,使用二级散列表结构,一级散列表通过仅使用部分前缀值计算字符串散列,减少了散列值的计算量;而二级散列表作为一级散列表的冲突链存储表,解决了一级散列表精简散列计算导致的冲突增大的问题。

    一种字符串散列表实现方法和系统

    公开(公告)号:CN110321346A

    公开(公告)日:2019-10-11

    申请号:CN201910450998.8

    申请日:2019-05-28

    Abstract: 本发明涉及一种字符串散列表实现方法,包括:根据字符串长度,将该字符串分发至对应的散列表;其中,该散列表包括数组散列表、数值型散列表和字符型双散列表。本发明使用多种异构散列表存储字符串,针对不同字符串的长度选择合适的散列表;同时针对短字符串,将短字符串划分为固定的几个长度区间,提高内存空间利用率,利用字符串变长的特性,为每种区间的散列槽预留末尾的1字节空间原地存储元数据信息;而针对长字符串,使用二级散列表结构,一级散列表通过仅使用部分前缀值计算字符串散列,减少了散列值的计算量;而二级散列表作为一级散列表的冲突链存储表,解决了一级散列表精简散列计算导致的冲突增大的问题。

    一种数据存储方法及装置

    公开(公告)号:CN104182292A

    公开(公告)日:2014-12-03

    申请号:CN201310190526.6

    申请日:2013-05-21

    Abstract: 本发明实施例公开了一种数据存储方法及装置,涉及计算机领域,实现了容错编码强度的动态调节。具体方案为:根据数据簇的容错能力和/或数据簇的工作场景选取容错编码类型;其中,数据簇是指受同一容错强度的容错编码保护的数据集合;根据容错编码类型获取第一数据的校验码;其中,第一数据为数据簇中的任意一个数据;获取校验码存储地址;其中,校验码存储地址为存储第一数据的校验码地址;根据第一数据的物理地址将第一数据写入存储系统;根据校验码存储地址将第一数据的校验码写入存储系统。本发明用于数据的存储过程中。

    一种LZ77压缩算法的硬件解码实现系统及方法

    公开(公告)号:CN103078647A

    公开(公告)日:2013-05-01

    申请号:CN201310013616.8

    申请日:2013-01-15

    Abstract: 本发明提供了一种LZ77压缩算法的硬件解码实现系统及方法,该系统包括:字符类别判决模块,用于判断待解码数据的属性;字符类别判决结果反馈模块,用于根据待解码数据的属性进行解码操作;缓存模块,用于缓存解码后的字符,并统计缓存的字符数目;缓存字符数结果反馈模块,用于根据所述字符数目从缓存模块中移位相应字符到字典模块中进行存储,并返回字符类别判决模块继续解码直至解码结束,其中字典模块用于存储缓存模块中的字符以备后续解码使用。本发明能够有效的提高现有Gzip解压缩算法核心组成部分LZ77算法的解码效率。

    基于列存数据的流式数据处理方法及系统

    公开(公告)号:CN114185884B

    公开(公告)日:2025-04-04

    申请号:CN202111306456.7

    申请日:2021-11-05

    Abstract: 本发明提出一种基于列存数据的流式数据处理方法及系统,包括:获取待处理的流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,该批式数据块中每条数据均包含各自所属窗口的时间戳;根据该时间戳的时间类型,压缩该时间戳,根据压缩结果为该批式数据块中每条数据分配窗口序号,将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,根据处理任务对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取相应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出各窗口序号的任务处理结果,作为流式数据处理结果。

    基于微内核操作系统的分布式流式数据处理方法及系统

    公开(公告)号:CN110532072A

    公开(公告)日:2019-12-03

    申请号:CN201910672072.3

    申请日:2019-07-24

    Abstract: 本发明提出一种基于微内核操作系统的分布式流式数据处理方法及系统,包括:获取包含用户定义函数的作业代码,并以该用户定义函数作为节点将该作业代码转换为有向无环图,并根据该有向无环图中算子之间的关联度,将该有向无环图中算子进行合并,得到任务逻辑视图;根据分布式微内核操作系统的物理执行环境,将该任务逻辑视图转换为执行图,该分布式微内核操作系统中工作节点收到该执行图,并将该执行图内的作业任务与作业调度分配至空闲CPU内核执行。与现有技术相比,本发明具有端到端处理延迟低,且吞吐量高,系统镜像体积小,启动时间短的技术进步。

    一种消息式内存模组的访存方法和装置

    公开(公告)号:CN104347122B

    公开(公告)日:2017-08-04

    申请号:CN201310330220.6

    申请日:2013-07-31

    CPC classification number: G06F11/1068 G06F11/1044 G06F11/108 G11C29/52

    Abstract: 本发明公开了一种消息式内存模组的访存装置,包括:读写模块,用于将当前读写周期内待存储的SCBC存储到对应的DRAM中;处理模块,用于对一个内存行中的每个SCBC分别计算一组检错码,对一个内存行中的全部SCBC计算一组纠错码;所述读写模块,还用于将检错码存储在该内存行的第(M+2)个DRAM中,将纠错码存储在该内存行的第Z个DRAM中,Z为正整数且1≤Z≤(M+1),连续(M+1)个内存行中的纠错码分别存储在不同的DRAM中。本发明实施例还提供相应的方法。本发明技术方案以SCBC为基本读写单位进行细粒度编码保护,支持可变粒度访存,可以实现对单个DRAM中任意多位错误进行纠错。

    基于列存数据的流式数据处理方法及系统

    公开(公告)号:CN114185884A

    公开(公告)日:2022-03-15

    申请号:CN202111306456.7

    申请日:2021-11-05

    Abstract: 本发明提出一种基于列存数据的流式数据处理方法及系统,包括:获取待处理的流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,该批式数据块中每条数据均包含各自所属窗口的时间戳;根据该时间戳的时间类型,压缩该时间戳,根据压缩结果为该批式数据块中每条数据分配窗口序号,将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,根据处理任务对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取相应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出各窗口序号的任务处理结果,作为流式数据处理结果。

Patent Agency Ranking