一种基于聚类和边界点的不平衡数据处理方法

    公开(公告)号:CN112633337A

    公开(公告)日:2021-04-09

    申请号:CN202011463010.0

    申请日:2020-12-14

    Inventor: 姜诚 杨海波 张爽

    Abstract: 本发明公开了一种基于聚类和边界点的不平衡数据处理方法,首先获取不平衡数据比例,计算要合成的少数类样本数;然后利用DBSCAN聚类方法对少数类样本聚类,找出聚类个数较少的簇,作为噪声点去除;再计算任意少数类样本的K近邻样本距离之和,以距离平均值为半径,统计半径区域少数类样本中多数类个数,归一化处理得到样本边界区域权重;此外,以每个聚类簇为区域,计算聚类中心到簇中所有样本的距离,以距离倒数作为样本权重;最后,在每个边界区域和聚类中心利用SMOTE合成算法;得到的新数据集和原数据集合并,采用交叉验证划分数据,然后使用随机森林分类算法进行测试。本发明让合成的样本分布更加合理,通过实验证明在分类器上表现性能更加良好。

    密度峰值聚类算法的聚类策略优化

    公开(公告)号:CN113822310A

    公开(公告)日:2021-12-21

    申请号:CN202011462448.7

    申请日:2020-12-14

    Abstract: 本发明提出了一种方法,对于密度峰值聚类算法的聚类策略进行优化,主要解决密度峰值聚类算法在确定聚类中心后,剩余点分配过程中,因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点,使簇与簇之间更加独立;运用广度优先搜索遍历算法对簇进行遍历,实现样本点的聚类;最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响,避免了聚类过程中因为一个点分配错误而导致的连锁反应,显著提高了聚类效果。

    基于边界密度的不平衡数据过采样算法

    公开(公告)号:CN113392908A

    公开(公告)日:2021-09-14

    申请号:CN202110670088.8

    申请日:2021-06-17

    Inventor: 姜诚 万静 田新雨

    Abstract: 本发明公开了基于边界密度的不平衡数据过采样算法,首先计算每个少数类到其他少数类样本的距离,对其进行排序,选择每个少数类的最K近邻样本构建集合,然后分别计算每个少数类到K近邻集合的总距离,将其与截断距离进行比较,得到少数类样本的局部密度;进行归一化处理后,获得边界区域样本采样权重;最后,在每个边界区域利用改进的SMOTE合成算法公式合成新样本;合成后的数据集与原数据集合并,采用交叉验证划分数据,使用支持向量机分类算法进行训练测试;实验结果表明,本发明提高了少数类边界样本的支持度,分类器的准确性得到明显提升。

    密度峰值聚类算法的聚类策略优化

    公开(公告)号:CN113378986A

    公开(公告)日:2021-09-10

    申请号:CN202110762011.3

    申请日:2021-07-06

    Inventor: 纪耀立 万静 姜诚

    Abstract: 本发明提出了一种方法,对于密度峰值聚类算法的聚类策略进行优化,主要解决密度峰值聚类算法在确定聚类中心后,剩余点分配过程中,因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点,使簇与簇之间更加独立;运用广度优先搜索遍历算法对簇进行遍历,实现样本点的聚类;最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响,避免了聚类过程中因为一个点分配错误而导致的连锁反应,显著提高了聚类效果。

    基于密度的不平衡数据混合采样算法

    公开(公告)号:CN113378987A

    公开(公告)日:2021-09-10

    申请号:CN202110762213.8

    申请日:2021-07-06

    Inventor: 姜诚 万静 纪耀立

    Abstract: 本发明公开了基于密度的不平衡数据混合采样算法,首先使用DBSCAN聚类算法对少数类和多数类进行聚类,识别并处理少数类和多数类离群点,然后依据样本的K近邻总距离,计算每个样本的边界密度,依据边界密度,确定少数类样本和多数类样本的边界区域和非边界区域,对少数类样本边界区域进行过采样,多数类样本非边界区域欠采样,最后得到平衡数据集,使用交叉验证划分数据,使用随机森林算法对样本分类测试,实验结果显示,本发明能够得到较好的分类结果,分类器性能得到提高。

Patent Agency Ranking