基于自适应算术编码的DNA数据存储方法

    公开(公告)号:CN118173181A

    公开(公告)日:2024-06-11

    申请号:CN202410272356.4

    申请日:2024-03-11

    IPC分类号: G16B50/50 H03M7/02 H03M7/40

    摘要: 本发明公开了一种基于自适应算术编码的DNA数据存储方法,涉及数据存储方法技术领域。所述方法主要包括压缩、纠错和映射三部分,在压缩中采用精度更高的自适应算术编码,提高了压缩效率;在纠错中,提出了八进制汉明纠错码;在映射中,设计可以让GC含量稳定保持在50%、均聚物长度不超过2的“3‑2 code”映射方案。最后将文本、图片、音频等不同格式的文件分别进行了编码实验。实验结果表明:基于自适应算术编码的DNA数据存储方法每个碱基的平均编码密度为2.99bits,GC含量和均聚物长度符合预期;在纠错时,根据信道质量适当调整汉明码中信息码元的长度,可以保证数据的准确性。

    一种高通量基因组测序质量得分数据并行压缩方法

    公开(公告)号:CN117133365A

    公开(公告)日:2023-11-28

    申请号:CN202311018059.9

    申请日:2023-08-14

    申请人: 南开大学

    IPC分类号: G16B50/50 G16B40/00 G06F17/18

    摘要: 本发明涉及数据压缩存储技术领域,提供一种高通量基因组测序质量得分数据并行压缩方法。该方法包括:分割原始基因测序文件;进行随机采样并对采样数据进行k‑mer分析,获得统计特征信息并建立并行序列分区模型进行二分类,依据拼接参数拼接二分类获得的两分区文件;通过多元线性回归分析预测法预测所述待压缩文件获得压缩率增益并建立并行四级游程预测映射模型进行数据消冗;通过多核处理器集群对两消冗子文件进行上下文建模,并结合算术编码进行级联压缩,获得最终压缩文件。本发明在显著降低质量得分数据压缩时间和峰值内存开销的前提下,还提升质量得分数据压缩率,减少待压缩存储文件大小,节约基础存储设施建设成本。

    一种高通量基因组序列数据压缩并行优化方法

    公开(公告)号:CN117059181A

    公开(公告)日:2023-11-14

    申请号:CN202310739800.4

    申请日:2023-06-21

    申请人: 南开大学

    摘要: 本发明涉及数据压缩存储技术领域,提供一种高通量基因组序列数据压缩并行优化方法,该方法包括:对待压缩数据集中的字符串类型序列数据并行进行序列特征提取,获得待压缩数据的序列特征值;根据序列特征值构建待压缩数据的特征向量,引入纠正参数和骰子系数并行计算任意所述特征向量间的相似度;根据相似度对待压缩数据集文件进行两级参数选取策略的聚类分簇;根据聚类结果对待压缩数据集进行并行级联压缩,获得优化后的压缩存储文件;对压缩存储文件并行级联解压缩,根据聚类分簇中间文件恢复数据集的原始序列。该方法通过对基因组测序中的文件数量、序列数目、系统内存和级联压缩算法峰值内存开销进行建模和并行处理,降低了压缩时间开销。

    多线程基因数据压缩方法、装置

    公开(公告)号:CN111145834B

    公开(公告)日:2023-10-27

    申请号:CN201911200154.4

    申请日:2019-11-29

    发明人: 刘华

    IPC分类号: G16B50/00 G16B50/50

    摘要: 本发明公开了一种多线程基因数据压缩方法、装置,包括:在待压缩基因序列中提取参考基因序列;从所述参考基因序列中获取包括参考基因序列碱基信息的数据信息;将所述参考基因序列碱基信息与待压缩基因序列碱基信息进行匹配;基于匹配结果对待压缩基因序列中的各条序列进行多线程压缩。采用上述方案,可以大幅度提升压缩率。

    压缩分子标记的核酸序列数据的方法

    公开(公告)号:CN110914911B

    公开(公告)日:2023-09-22

    申请号:CN201880032274.5

    申请日:2018-05-15

    发明人: C-Z·白

    摘要: 一种压缩分子标记的序列数据的方法,包括:将与分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值,计算所述流动空间信号测量值的对应向量的算术平均值以形成共有流动空间信号测量值的向量,计算所述流动空间信号测量值的对应向量的标准偏差以形成标准偏差向量,基于所述共有流动空间信号测量值的向量确定共有碱基序列,确定共有序列比对值并生成包含共有压缩数据的压缩数据结构,所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。

    一种杂交捕获探针脱靶危险性评估的方法

    公开(公告)号:CN115101128A

    公开(公告)日:2022-09-23

    申请号:CN202210758056.8

    申请日:2022-06-29

    发明人: 汪彪 曲燕 吴强

    摘要: 本发明提供了一种评估杂交捕获探针脱靶危险性的方法,其原理是将待靶向富集的基因组参考序列截取一定长度的序列片段,记录不同序列的片段出现的次数,然后分析探针序列中这一长度片段出现的次数,评估探针非特异地捕获到区域外序列的危险性。该方法不依赖比对软件,可以一次性地获取整个基因组上所有区域的杂交捕获探针脱靶危险性信息,并快速调用,减少了杂交捕获NGS测序中的脱靶问题。

    可定制的分隔文本压缩框架
    8.
    发明公开

    公开(公告)号:CN114556318A

    公开(公告)日:2022-05-27

    申请号:CN202080073005.0

    申请日:2020-10-15

    发明人: 张贻谦

    摘要: 一种用于压缩数据的方法包括:获得针对分隔文本文件的格式而定制的压缩模式;并且使用所述压缩模式将所述分隔文本文件解析成多个数据块,将所述数据块中的每个数据块划分成多个数据单元以用于有效的选择性访问,并且使用不同的压缩算法来压缩所述多个数据块中的所述多个数据单元以提高压缩率。基于所述模式中的区域定义将分隔文件划分成多个数据块。基于在所述模式中指定的所述多个数据块中的每个数据块的相应数据单元大小将所述多个块中的每个数据块划分成所述多个数据单元。使用由所述模式中的压缩指令指示的所述不同的压缩算法来压缩所述多个数据块中的每个数据块中的所述多个数据单元。所述压缩文件包括压缩数据块、压缩模式以及用于数据解压缩、文件重建和诸如数据安全和搜索查询之类的功能的各种元数据。所述分隔文本文件可以包括基因组信息或另一类型的信息。

    一种基于共享数据梗概的DNA序列查询系统

    公开(公告)号:CN110867214B

    公开(公告)日:2022-04-05

    申请号:CN201911110726.X

    申请日:2019-11-14

    IPC分类号: G16B50/30 G16B50/50

    摘要: 本发明提供一种基于共享数据梗概的DNA序列查询系统,该系统将来自不同档案库的DNA序列压缩到同一个数据梗概中。对于感兴趣的DNA序列,通过该数据梗概可快速查询该序列存在于哪些档案库中。本发明包括数据预处理,数据梗概的建立与更新,DNA序列查询三个子系统;从给定的DNA序列中提取出有用信息;提出原创的数据梗概对多个档案库的DNA序列数据进行压缩;利用数据梗概对DNA进行查询;本发明可用于DNA序列查询,通过查询感兴趣的DNA所在的档案库,进一步寻找感兴趣的档案库数据进行研究。