一种针对基因数据的取样字典树索引的压缩方法和系统

    公开(公告)号:CN109450452A

    公开(公告)日:2019-03-08

    申请号:CN201811427459.4

    申请日:2018-11-27

    Abstract: 本发明涉及一种针对基因数据的取样字典树索引的压缩方法和系统,包括:用户上传待压缩的基因数据,该基因数据包括:标识、序列和质量分值;提取该序列中预设长度的子串到字典树索引结构中进行查找,若该字典树索引结构中具有该子串,则将该子串压缩为该子串在该字典树索引结构中的位置、长度,作为该子串的索引值,否则将该子串加入该字典树索引结构,记录该子串在该字典树索引结构中的位置、长度作为该子串的索引值。本发明提高了序列的压缩效果,并使用取样索引和根据质量分值高低决定是否加入到索引结构的策略来降低字典树的内存占用空间。

    一种针对基因数据的取样字典树索引的压缩方法和系统

    公开(公告)号:CN109450452B

    公开(公告)日:2020-07-10

    申请号:CN201811427459.4

    申请日:2018-11-27

    Abstract: 本发明涉及一种针对基因数据的取样字典树索引的压缩方法和系统,包括:用户上传待压缩的基因数据,该基因数据包括:标识、序列和质量分值;提取该序列中预设长度的子串到字典树索引结构中进行查找,若该字典树索引结构中具有该子串,则将该子串压缩为该子串在该字典树索引结构中的位置、长度,作为该子串的索引值,否则将该子串加入该字典树索引结构,记录该子串在该字典树索引结构中的位置、长度作为该子串的索引值。本发明提高了序列的压缩效果,并使用取样索引和根据质量分值高低决定是否加入到索引结构的策略来降低字典树的内存占用空间。

Patent Agency Ranking