一种基于共享数据梗概的DNA序列查询系统

    公开(公告)号:CN110867214B

    公开(公告)日:2022-04-05

    申请号:CN201911110726.X

    申请日:2019-11-14

    IPC分类号: G16B50/30 G16B50/50

    摘要: 本发明提供一种基于共享数据梗概的DNA序列查询系统,该系统将来自不同档案库的DNA序列压缩到同一个数据梗概中。对于感兴趣的DNA序列,通过该数据梗概可快速查询该序列存在于哪些档案库中。本发明包括数据预处理,数据梗概的建立与更新,DNA序列查询三个子系统;从给定的DNA序列中提取出有用信息;提出原创的数据梗概对多个档案库的DNA序列数据进行压缩;利用数据梗概对DNA进行查询;本发明可用于DNA序列查询,通过查询感兴趣的DNA所在的档案库,进一步寻找感兴趣的档案库数据进行研究。

    一种适用于海量数据的高速网络流量异常检测系统

    公开(公告)号:CN113079176B

    公开(公告)日:2022-04-05

    申请号:CN202110402669.3

    申请日:2021-04-14

    摘要: 一种适用于海量数据的高速网络流量异常检测系统,包括数据包特征提取子系统、网络流量压缩存储子系统、用户频度分析子系统、网络重击流检测子系统和网络巨变流检测子系统:首先对高速网络流量进行捕获,根据检测粒度,初步提取数据包五元组信息,作为网络用户唯一标识;基于所提取的数据包特征,利用LogLog数据结构对高速网络流量中频度较小的低频网络用户进行过滤存储,并结合不同的网络流量异常检测任务,采用不同的数据结构存储频度较大的高频网络用户;结合存储网络流量中低频和高频网络用户的不同数据结构,分别对网络流量中的异常行为进行检测,输出每个网络用户的频度,并检测得到网络流量中的Top‑k网络重击流和网络巨变流。

    用于确定数据集之间差异的方法、系统、设备及存储介质

    公开(公告)号:CN118656371A

    公开(公告)日:2024-09-17

    申请号:CN202410811082.1

    申请日:2024-06-21

    IPC分类号: G06F16/22 G06F16/2458

    摘要: 本申请公开了一种用于确定数据集之间差异的方法、系统、装置、电子设备及计算机可读存储介质,应用于数据服务端,本申请利用截断几何分布条件的性质,使得数据集中的数据能够按照与哈希函数对应的概率分布被记录,从而通过使用预设的哈希函数确定数据集的梗概数据,在保持数据集完整性的同时,有效减少数据存储空间的需求生成梗概压缩数据,再通过对目标数据集的梗概压缩数据进行异或操作,快速获得目标数据集之间的梗概差数据;最终通过求解期望函数来确定数据集之间的差异值。在保证分析结果准确度的同时,有效降低内存占用,解决了大数据的数据集差异分析过程中,内存占用与分析结果准确度不能兼顾的问题。

    一种基于共享数据梗概的DNA序列查询系统

    公开(公告)号:CN110867214A

    公开(公告)日:2020-03-06

    申请号:CN201911110726.X

    申请日:2019-11-14

    IPC分类号: G16B50/30 G16B50/50

    摘要: 本发明提供一种基于共享数据梗概的DNA序列查询系统,该系统将来自不同档案库的DNA序列压缩到同一个数据梗概中。对于感兴趣的DNA序列,通过该数据梗概可快速查询该序列存在于哪些档案库中。本发明包括数据预处理,数据梗概的建立与更新,DNA序列查询三个子系统;从给定的DNA序列中提取出有用信息;提出原创的数据梗概对多个档案库的DNA序列数据进行压缩;利用数据梗概对DNA进行查询;本发明可用于DNA序列查询,通过查询感兴趣的DNA所在的档案库,进一步寻找感兴趣的档案库数据进行研究。

    相似数据库的检索方法、装置、设备及存储介质

    公开(公告)号:CN118885516A

    公开(公告)日:2024-11-01

    申请号:CN202410907106.3

    申请日:2024-07-08

    摘要: 本申请公开了一种相似数据库的检索方法、装置、设备及存储介质,属于数据检索技术领域,包括:获取多个待选择的数据库,并按照预设的距离估计函数确定每个数据库的库特征数据;按照预设的局部敏感哈希函数处理每个库特征数据,并将全部的库特征数据所对应的库哈希值存储在同一个梗概数据中;从用户设备获取参照数据的序列特征数据,并在梗概数据中确定与序列特征数据匹配的目标库哈希值;根据目标库哈希值确定目标数据库,并将目标数据库发送至用户设备。解决了计算开销大的问题;同时也避免了在数据检索过程中,由布隆过滤器检索条件过于严格所造成的不能识别相似序列的问题。

    一种适用于海量数据的高速网络流量异常检测系统

    公开(公告)号:CN113079176A

    公开(公告)日:2021-07-06

    申请号:CN202110402669.3

    申请日:2021-04-14

    摘要: 一种适用于海量数据的高速网络流量异常检测系统,包括数据包特征提取子系统、网络流量压缩存储子系统、用户频度分析子系统、网络重击流检测子系统和网络巨变流检测子系统:首先对高速网络流量进行捕获,根据检测粒度,初步提取数据包五元组信息,作为网络用户唯一标识;基于所提取的数据包特征,利用LogLog数据结构对高速网络流量中频度较小的低频网络用户进行过滤存储,并结合不同的网络流量异常检测任务,采用不同的数据结构存储频度较大的高频网络用户;结合存储网络流量中低频和高频网络用户的不同数据结构,分别对网络流量中的异常行为进行检测,输出每个网络用户的频度,并检测得到网络流量中的Top‑k网络重击流和网络巨变流。