一种基于混合采样和机器学习的不平衡数据分类方法

    公开(公告)号:CN109871901A

    公开(公告)日:2019-06-11

    申请号:CN201910171280.5

    申请日:2019-03-07

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于混合采样和机器学习的不平衡数据分类方法,包括:步骤一,生成训练集;步骤二,针对训练集中的少数类样本集P,复制P生成P',利用P和P'合成PP',在PP'的基础上采用smote算法生成S,同时P、P'和S构成PP'S;步骤三,针对训练集中的多数类样本集N,不放回地随机欠采样得到t个Ni;步骤四,重复执行步骤二t次,得到t个不同的PP'Si,将Ni与对应的PP'Si合成新的训练集,得到t个子集;步骤五,训练生成t个分类器Hi;步骤六,集成t个Hi,得到最终的分类器H,利用分类器H完成对不平衡数据集的分类。本发明提高少数类样本的关注度同时不会过分丢失多数类的信息;减小了过拟合和过度泛化的可能;训练效果好,不易过拟合,训练速度快。

Patent Agency Ranking