一种基于深度学习的第三代测序数据的自校正纠错方法

    公开(公告)号:CN114664379A

    公开(公告)日:2022-06-24

    申请号:CN202210380222.5

    申请日:2022-04-12

    Abstract: 本发明公开了一种基于深度学习的第三代测序数据的自校正纠错方法,该方法是通过对第三代DNA测序数据进行质量控制,得到高质量的测序序列;将高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将图像视为训练集,训练深度学习模型;对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrected MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将uncorrected reads编码成的图像,输入训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;对纠正后的图像进行反编码,生成纠错后的corrected reads。

    一种PacBio测序数据纠错结果的自动化评估方法

    公开(公告)号:CN114937475A

    公开(公告)日:2022-08-23

    申请号:CN202210380137.9

    申请日:2022-04-12

    Abstract: 本发明公开一种PacBio测序数据纠错结果的自动化评估方法,对原始PacBio测序数据进行质量控制得到符合设定阈值范围的测序序列;使用待评估的纠错方法对质量控制后的clean reads纠错得到序列记为corrected reads,并统计纠错所需的内存资源和时间消耗;对纠错前、后的clean reads、corrected reads进行比较、分析,得到纠错输出率TH和纠错后序列的平均长度;将纠错后的corrected reads与其对应的参考基因组进行比对,得到比对序列MSA并统计分析,得到纠错的灵敏度和正确率;将纠错后的corrected reads组装得到contigs;将contigs与其对应的参考基因组比对,得到比对contigs MSA统计分析,统计出contigs的数量、基因组覆盖率和NGA50。

Patent Agency Ranking