-
公开(公告)号:CN118887997A
公开(公告)日:2024-11-01
申请号:CN202410853044.2
申请日:2024-06-28
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了基因序列压缩方法、检索方法及装置,属于生物信息学领域。本发明的基因序列压缩方法通过MapReduce框架实现基于2bit的基因序列压缩,包括解析序列文件、序列化处理和拼接存储。本发明的检索方法包括目标序列读取、查询序列预处理、距离表计算和匹配。本发明的装置部分包括导入、导出、查询和功能拓展模块。本发明采用分布式MapReduce框架和无索引字节流匹配,实现大规模基因数据的高效处理和检索,显著提高了压缩速度和检索效率。