基于HDBSCAN聚类的文本分类自适应过采样方法

    公开(公告)号:CN110443281B

    公开(公告)日:2023-09-26

    申请号:CN201910605272.7

    申请日:2019-07-05

    Abstract: 本发明请求保护一种基于HDBSCAN聚类的自适应过采样方法,主要解决现有方法中利用完整数据信息的不平衡数据分类问题。所述技术的步骤为:(1)输入训练数据集;(2)对训练集中的少数类样本进行聚类得到不同规模且互不相交的集群;(3)计算每个少数类集群中需要合成的样本数量;(4)根据每个集群需要合成的样本数量自适应地合成新的样本得到新的少数类数据集;(5)多数类数据集和新的少数类数据集形成新的平衡数据集;(6)利用新的平衡数据集训练并测试分类器。本技术可有效避免不平衡数据集中噪声的产生并同时克服类间和类内不平衡问题,为不平衡学习提供了一种全新的过采样策略。

    基于HDBSCAN聚类的自适应过采样方法

    公开(公告)号:CN110443281A

    公开(公告)日:2019-11-12

    申请号:CN201910605272.7

    申请日:2019-07-05

    Abstract: 本发明请求保护一种基于HDBSCAN聚类的自适应过采样方法,主要解决现有方法中利用完整数据信息的不平衡数据分类问题。所述技术的步骤为:(1)输入训练数据集;(2)对训练集中的少数类样本进行聚类得到不同规模且互不相交的集群;(3)计算每个少数类集群中需要合成的样本数量;(4)根据每个集群需要合成的样本数量自适应地合成新的样本得到新的少数类数据集;(5)多数类数据集和新的少数类数据集形成新的平衡数据集;(6)利用新的平衡数据集训练并测试分类器。本技术可有效避免不平衡数据集中噪声的产生并同时克服类间和类内不平衡问题,为不平衡学习提供了一种全新的过采样策略。

Patent Agency Ranking