一种基于Spark的分布式序列比对方法及系统

    公开(公告)号:CN119851761A

    公开(公告)日:2025-04-18

    申请号:CN202510070987.2

    申请日:2025-01-16

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于Spark的分布式序列比对方法及系统,涉及生物信息学技术领域,包括:接收Minimap2参考序列,基于Minimap2的多部分索引生成功能生成参考序列的多部分索引;基于参考序列的多部分索引内的字符串作为标识符将参考序列的多部分索引进行分区,得到分区副本,将分区副本分发至Spark集群的各个节点上;接收查询序列,对查询序列通过FASTA或FASTQ的文件格式进行分区,基于参考序列的分区数量和查询序列的分区数量以及各个节点上的分区副本生成多节点共享任务队列;各个节点基于多节点共享任务队列,选择自身所有索引文件分区副本对应的任务队列中需要处理剩余所有任务所需花费的时间最长的任务队列中的任务进行处理,得到任务处理结果。结合了查询序列分区和参考序列数据库分区的策略,通过建立多节点共享任务队列实现动态负载均衡,优化了Minimap2与大规模数据集比对时的效率。适用于第三代测序技术产生的长序列数据,特别适用于现场快速测序与分析的应用场景。

Patent Agency Ranking