-
公开(公告)号:CN108960436A
公开(公告)日:2018-12-07
申请号:CN201810747846.X
申请日:2018-07-09
Applicant: 上海应用技术大学
IPC: G06N99/00
Abstract: 本发明提供了一种特征选择方法,可应用于肝癌重要性指标的预测分析,所述方法包括:先对原始数据集进行扫描,依据重要性对各个特征进行排序,再用(广义)序列后向选择法从中去除一部分特征,在新的特征集上训练随机森林并计算其准确率,根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选,一旦它超过指定阈值就退出迭代,并将上一轮筛选所得的特征集作为结果。这样做的依据是,对于在不断缩减的特征集上训练出的模型,它们的泛化性能一般呈降低趋势,而其降低程度可以作为特征集的评价。反复该过程,最终将测试准确率最高的特征集作为特征选择的输出结果。