去除宏基因组测序数据中人源基因序列的方法

    公开(公告)号:CN108197434B

    公开(公告)日:2020-04-10

    申请号:CN201810041369.5

    申请日:2018-01-16

    IPC分类号: G16B30/10 G16B30/20

    摘要: 本发明公开了一种去除宏基因组测序数据中人源基因序列的方法,该方法包括以下步骤:通过千人基因组计划样本的原始测序数据构建参考基因集,在得到千人基因组数据的高质量的测序read后,使用基因组组装软件将其组装成较长的基因片段,后续作为参考序列与测序read进行比对;提取来源于NCBI数据库中所有非肿瘤样本中的基因片段数据作为NCBI Bioproject的基因片段数据用作后续处理;将千人基因组的数据与NCBI Bioproject的数据合并,去冗余后变成非冗余的基因片段数据集;将非冗余的基因片段数据集中的的病毒基因组序列找出,从基因片段序列中去除;将病毒基因序列组去除后的基因片段序列作为去除宏基因组测序数据中人源序列的参考基因组。

    基于高通量基因测序数据的病原微生物鉴定方法

    公开(公告)号:CN108090324B

    公开(公告)日:2020-03-27

    申请号:CN201810041835.X

    申请日:2018-01-16

    IPC分类号: G16B30/10 G16B5/00 C12Q1/04

    摘要: 本发明公开了一种基于高通量基因测序数据的病原微生物鉴定方法,包括以下步骤:将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株;进行隐马尔可夫模型观测点的选取;将模型中使用的隐状态初始概率进行定义;将模型中使用的隐状态转移概率进行定义;将模型中使用的隐状态到显状态的发射概率进行定义;根据建立好的模型对样本所属的菌株进行判断;可得到每个菌株基因组上每个位置的隐状态及每个菌株每个位置上是否属于菌株A的信息。

    去除宏基因组测序数据中人源基因序列的方法

    公开(公告)号:CN108197434A

    公开(公告)日:2018-06-22

    申请号:CN201810041369.5

    申请日:2018-01-16

    IPC分类号: G06F19/22

    摘要: 本发明公开了一种去除宏基因组测序数据中人源基因序列的方法,该方法包括以下步骤:通过千人基因组计划样本的原始测序数据构建参考基因集,在得到千人基因组数据的高质量的测序read后,使用基因组组装软件将其组装成较长的基因片段,后续作为参考序列与测序read进行比对;提取来源于NCBI数据库中所有非肿瘤样本中的基因片段数据作为NCBI Bioproject的基因片段数据用作后续处理;将千人基因组的数据与NCBI Bioproject的数据合并,去冗余后变成非冗余的基因片段数据集;将非冗余的基因片段数据集中的病毒基因组序列找出,从基因片段序列中去除;将病毒基因序列组去除后的基因片段序列作为去除宏基因组测序数据中人源序列的参考基因组。

    基于高通量基因测序数据的病原微生物鉴定方法

    公开(公告)号:CN108090324A

    公开(公告)日:2018-05-29

    申请号:CN201810041835.X

    申请日:2018-01-16

    IPC分类号: G06F19/12 G06F19/20 C12Q1/04

    摘要: 本发明公开了一种基于高通量基因测序数据的病原微生物鉴定方法,包括以下步骤:将模型中的相关元素进行定义,在隐马尔可夫模型中,微生物所属物种或亚种为隐状态,所涉及物种基因组的序列标签的比对情况为显状态;通过对菌株基因组每个位置的序列标签的比对情况,判断基因序列的来源菌株;进行隐马尔可夫模型观测点的选取;将模型中使用的隐状态初始概率进行定义;将模型中使用的隐状态转移概率进行定义;将模型中使用的隐状态到显状态的发射概率进行定义;根据建立好的模型对样本所属的菌株进行判断;可得到每个菌株基因组上每个位置的隐状态及每个菌株每个位置上是否属于菌株A的信息。