-
公开(公告)号:CN106202999B
公开(公告)日:2018-12-11
申请号:CN201610577084.4
申请日:2016-07-21
Applicant: 厦门大学
IPC: G06F19/24
Abstract: 本发明提供了一种基于不同尺度tuple词频的微生物高通量测序数据分析协议,其包括:步骤1:获取宏基因组样本的2‑10bp的短tuple高通量测序数据,采用插值上下文马尔科夫模型进行建模微生物群落的背景基因组,再采用无监督的聚类方法来比较宏基因组样本,得出宏基因组样本的类别信息;步骤2:基于步骤1)中聚类得出的类别信息,将≥30bp的长tuple作为特征,采用有监督的样本分类方法找出描述宏基因组样本类别的特异性特征长tuple序列。本发明混合不同阶次的马尔科夫模型,由数据本身决定各阶次马尔科夫模型所占的权重,并允许分析上下文不连续的序列之间的关系。
-
公开(公告)号:CN106202999A
公开(公告)日:2016-12-07
申请号:CN201610577084.4
申请日:2016-07-21
Applicant: 厦门大学
IPC: G06F19/24
CPC classification number: G06F19/24
Abstract: 本发明提供了一种基于不同尺度tuple词频的微生物高通量测序数据分析协议,其包括:步骤1:获取宏基因组样本的2-10bp的短tuple高通量测序数据,采用插值上下文马尔科夫模型进行建模微生物群落的背景基因组,再采用无监督的聚类方法来比较宏基因组样本,得出宏基因组样本的类别信息;步骤2:基于步骤1)中聚类得出的类别信息,将≥30bp的长tuple作为特征,采用有监督的样本分类方法找出描述宏基因组样本类别的特异性特征长tuple序列。本发明混合不同阶次的马尔科夫模型,由数据本身决定各阶次马尔科夫模型所占的权重,并允许分析上下文不连续的序列之间的关系。
-