-
公开(公告)号:CN119272079A
公开(公告)日:2025-01-07
申请号:CN202411059543.0
申请日:2024-08-04
Applicant: 哈尔滨理工大学
IPC: G06F18/23213 , G06F18/241 , G06F18/10
Abstract: 本发明涉及一种基于少数类簇加权的过采样算法。本发明首先对原始数据集中的所有少数类样本进行k‑means聚类,形成多个少数类簇,将少数类样本划为安全点,边界点和噪声点,并将噪声点删除。其次结合采样率计算出每个少数类簇需要合成的少数类样本的数量,然后根据边界点样本和安全点样本的分布情况,分别以不同的方法为边界点样本和安全点样本分布权重。最后根据每个少数类样本点的权重使用改进后的SMOTE算法生成少数类样本,使数据集达到平衡状态;利用UCI数据库中的6组标准版公开数据集进行测试,验证了该方法可以有效降低少数类样本的重叠率,提高分类器对少数类样本的分类精度。本发明更准确分析了数据集原始分布情况,降低了样本间的冗余性,从而提高了分类器的性能。