基于动态K均值聚类的不平衡数据分类

    公开(公告)号:CN119782917A

    公开(公告)日:2025-04-08

    申请号:CN202411425619.7

    申请日:2024-10-13

    Inventor: 万静 陈弈名 司禹

    Abstract: 本发明提供了一种基于动态K均值聚类的不平衡数据分类方法,旨在解决机器学习领域中常见的类别不平衡问题。该方法通过自适应k‑means聚类算法对多数类数据集进行聚类,自动调整聚类的数量(K值),以适应数据的分布特性。在聚类完成后,采用两种不同的抽样视角——基于曼哈顿距离(AKMS)和余弦相似度(AKCS)——从聚类中选择样本,确保从每个聚类中以等比例提取接近聚类质心或具有高度相似度的样本。然后,将得到的多数类数据集子集与少数类数据集合并,生成平衡数据集,并使用如支持向量机(SVM)等分类器进行分类。本发明的方法不仅提高了算法的运行效率,还通过动态调整K值和先进的样本选择策略,显著提升了不平衡数据集的分类性能。此外,本发明还引入了一系列评价指标,如查准率、查全率、F‑value、G‑mean和AUC等,用于全面评估分类效果。通过与传统方法的比较实验,证明了本发明方法的有效性和优越性。

Patent Agency Ranking