一种基于PTPR和轮盘赌的特征选择方法

    公开(公告)号:CN106650316A

    公开(公告)日:2017-05-10

    申请号:CN201610846347.7

    申请日:2016-09-23

    Inventor: 王家天 林晓惠

    CPC classification number: G06F19/24 G06F19/28

    Abstract: 本发明属于数据挖掘、生物信息学技术的交叉领域,提出了一种基于PTPR和轮盘赌的特征选择方法,是在职业网球选手排名算法的基础上,结合了轮盘赌算法,分别在种子集和非种子集中加入了轮盘赌机制,该机制用每个特征的累计得分计算出该特征被选中参与下一轮竞争的概率。这样,在种子集和非种子集中,表现相对较好的特征会以较高的概率被抽取。本发明提供了一种特征选择的新方法,该算法迭代多次,通过轮盘赌机制尽可能地使表现相对较好的特征参与每次迭代,从而提高了算法的收敛速度,增加了算法的分类准确率。算法最后根据每个特征的最终得分进行排序,得到特征排名,从排名靠前的特征中挑选出具有区分能力的特征形成特征子集。

    一种基于SVM-RFE和重叠度的特征选择方法

    公开(公告)号:CN105574363A

    公开(公告)日:2016-05-11

    申请号:CN201510932825.1

    申请日:2015-12-14

    CPC classification number: G06F19/24 G06K9/6269

    Abstract: 本发明属于数据挖掘、生物信息学技术的交叉领域,涉及一种基于SVM-RFE和重叠度的特征选择方法。首先基于训练样本X和当前特征集合F,屏蔽那些Nr(xi)>0的样本,并且最多屏蔽每类样本数的1/3,则剩余样本为Xt。然后基于当前特征集合F和训练集合Xt,构建SVM分类模型,得出d折交叉验证的分类准确率,然后计算出在当前特征集合F上训练样本Xt中的每个样本xi的重叠度Nr(xi),再求训练样本集合Xt的平均重叠度,选取对应分类准确率和平均准确率差最大的特征集FS作为最优特征集。本发明的方法用于特征选择,并且通过屏蔽高重叠度的样本来降低模型的过拟合问题,以帮助发现具有区分能力的生物标志信息。

Patent Agency Ranking