-
公开(公告)号:CN110189799B
公开(公告)日:2021-02-02
申请号:CN201910417875.4
申请日:2019-05-20
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,1、对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,依据相关性得分筛选特征,生成子数据集;2、以有放回抽样方式对子数据集进行采样,然后使用变量重要性评分选择前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;3、使用奈曼皮尔逊检验方法计算给定参数下的阈值,筛选出现次数大于阈值的特征作为候选特征集合,出现次数最多的前k个特征为目标特征子集;本发明所提取的宏基因特征显著提高了分类效果,具有更高的稳定性,生成的候选特征集合方便了宏基因组后续医学实验的开展。
-
公开(公告)号:CN110189799A
公开(公告)日:2019-08-30
申请号:CN201910417875.4
申请日:2019-05-20
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,1、对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,依据相关性得分筛选特征,生成子数据集;2、以有放回抽样方式对子数据集进行采样,然后使用变量重要性评分选择前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;3、使用奈曼皮尔逊检验方法计算给定参数下的阈值,筛选出现次数大于阈值的特征作为候选特征集合,出现次数最多的前k个特征为目标特征子集;本发明所提取的宏基因特征显著提高了分类效果,具有更高的稳定性,生成的候选特征集合方便了宏基因组后续医学实验的开展。
-