-
公开(公告)号:CN110299187A
公开(公告)日:2019-10-01
申请号:CN201910597641.2
申请日:2019-07-04
Applicant: 南京邮电大学
IPC: G16B50/50
Abstract: 本发明公开了一种基于Hadoop的并行化基因数据压缩方法,事先从待压缩基因序列中选取并通过k-mer构建Hash表编码参考序列,并将参考序列存储为索引文件。启动Hadoop集群,将配置、索引和待压缩文件传到HDFS上,配置MapReduce任务,在Map任务中读取待压缩序列的所有信息,使用Combiner与Partitioner对Map结果优化。在Reduce任务中进行待压缩序列与参考序列的匹配去重,最后将结果压缩输出。本发明使用分布式计算方式可以在读取单个基因实现并行化并提高效率,还可以实现多条基因序列的并行处理,以实现处理压缩大批量基因文件的加速。
-
公开(公告)号:CN110299187B
公开(公告)日:2022-03-22
申请号:CN201910597641.2
申请日:2019-07-04
Applicant: 南京邮电大学
IPC: G16B50/50
Abstract: 本发明公开了一种基于Hadoop的并行化基因数据压缩方法,事先从待压缩基因序列中选取并通过k‑mer构建Hash表编码参考序列,并将参考序列存储为索引文件。启动Hadoop集群,将配置、索引和待压缩文件传到HDFS上,配置MapReduce任务,在Map任务中读取待压缩序列的所有信息,使用Combiner与Partitioner对Map结果优化。在Reduce任务中进行待压缩序列与参考序列的匹配去重,最后将结果压缩输出。本发明使用分布式计算方式可以在读取单个基因实现并行化并提高效率,还可以实现多条基因序列的并行处理,以实现处理压缩大批量基因文件的加速。
-
公开(公告)号:CN110310709B
公开(公告)日:2022-08-16
申请号:CN201910598102.0
申请日:2019-07-04
Applicant: 南京邮电大学
IPC: G16B50/50
Abstract: 本发明公开了一种基于参考序列的基因压缩方法,首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组。最后匹配Hash值。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。
-
公开(公告)号:CN110310709A
公开(公告)日:2019-10-08
申请号:CN201910598102.0
申请日:2019-07-04
Applicant: 南京邮电大学
IPC: G16B50/50
Abstract: 本发明公开了一种基于参考序列的基因压缩方法,首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组。最后匹配Hash值。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。
-
-
-