基于深度学习的nanopore测序数据碱基识别方法

    公开(公告)号:CN113870949A

    公开(公告)日:2021-12-31

    申请号:CN202111172443.5

    申请日:2021-10-08

    Abstract: 基于深度学习的nanopore测序数据碱基识别方法,涉及生物信息学领域,针对现有技术中nanopore测序准确率低的问题,一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;二:对50组原始数据进行碱基识别,得到碱基序列;三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正;四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别。本申请实现了对nanopore测序数据碱基序列高准确的识别。

    基于深度学习的nanopore测序数据碱基识别方法

    公开(公告)号:CN113870949B

    公开(公告)日:2022-05-17

    申请号:CN202111172443.5

    申请日:2021-10-08

    Abstract: 基于深度学习的nanopore测序数据碱基识别方法,涉及生物信息学领域,针对现有技术中nanopore测序准确率低的问题,一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;二:对50组原始数据进行碱基识别,得到碱基序列;三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正;四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别。本申请实现了对nanopore测序数据碱基序列高准确的识别。

Patent Agency Ranking