基于密度的不平衡数据混合采样算法

    公开(公告)号:CN113378987A

    公开(公告)日:2021-09-10

    申请号:CN202110762213.8

    申请日:2021-07-06

    Inventor: 姜诚 万静 纪耀立

    Abstract: 本发明公开了基于密度的不平衡数据混合采样算法,首先使用DBSCAN聚类算法对少数类和多数类进行聚类,识别并处理少数类和多数类离群点,然后依据样本的K近邻总距离,计算每个样本的边界密度,依据边界密度,确定少数类样本和多数类样本的边界区域和非边界区域,对少数类样本边界区域进行过采样,多数类样本非边界区域欠采样,最后得到平衡数据集,使用交叉验证划分数据,使用随机森林算法对样本分类测试,实验结果显示,本发明能够得到较好的分类结果,分类器性能得到提高。

    一种基于谱聚类的过采样方法

    公开(公告)号:CN112418352A

    公开(公告)日:2021-02-26

    申请号:CN202011462702.3

    申请日:2020-12-14

    Abstract: 本发明涉及一种基于基于谱聚类的过采样方法,本发明首先对数据集进行谱聚类,根据簇内多数类样本与少数类样本的个数划分为边界簇和安全簇,对于边界簇,根据簇内不平衡比进行簇的概率选择;对于安全簇根据簇内少数类样本数据个数进行簇的概率选择;在选择簇的基础上,选择簇中心点并随机选取簇内少数类样点,在两个样本点之间随机生成,直到个数满足条件,本发明能够提高过采样生成数据的可靠性,从而提高不平衡数据中少数类样本的分类精度。

    密度峰值聚类算法的聚类策略优化

    公开(公告)号:CN113822310A

    公开(公告)日:2021-12-21

    申请号:CN202011462448.7

    申请日:2020-12-14

    Abstract: 本发明提出了一种方法,对于密度峰值聚类算法的聚类策略进行优化,主要解决密度峰值聚类算法在确定聚类中心后,剩余点分配过程中,因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点,使簇与簇之间更加独立;运用广度优先搜索遍历算法对簇进行遍历,实现样本点的聚类;最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响,避免了聚类过程中因为一个点分配错误而导致的连锁反应,显著提高了聚类效果。

    密度峰值聚类算法的聚类策略优化

    公开(公告)号:CN113378986A

    公开(公告)日:2021-09-10

    申请号:CN202110762011.3

    申请日:2021-07-06

    Inventor: 纪耀立 万静 姜诚

    Abstract: 本发明提出了一种方法,对于密度峰值聚类算法的聚类策略进行优化,主要解决密度峰值聚类算法在确定聚类中心后,剩余点分配过程中,因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点,使簇与簇之间更加独立;运用广度优先搜索遍历算法对簇进行遍历,实现样本点的聚类;最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响,避免了聚类过程中因为一个点分配错误而导致的连锁反应,显著提高了聚类效果。

Patent Agency Ranking