一种基于聚类的自适应加权过采样方法

    公开(公告)号:CN113378927A

    公开(公告)日:2021-09-10

    申请号:CN202110650447.3

    申请日:2021-06-11

    Abstract: 本发明涉及一种基于聚类的自适应加权过采样方法,本发明首先对少数类样本数据进行k‑means聚类,对聚类形成的簇分别与多数类样本结合形成多个数据集,对于每个数据集使用随机森林算法进行分类并通过5折交叉验证的方式计算对应的得分值,并将计算得分值的平均值做为该簇的评分;根据各个簇得到的评分值,从而计算各个簇的合成权重;根据权重值,计算各个簇的生成样本个数,根据指定个数,在簇内进行样本之间随机线性插值,最终达到平衡数据集的目的。

    密度峰值聚类算法的聚类策略优化

    公开(公告)号:CN113822310A

    公开(公告)日:2021-12-21

    申请号:CN202011462448.7

    申请日:2020-12-14

    Abstract: 本发明提出了一种方法,对于密度峰值聚类算法的聚类策略进行优化,主要解决密度峰值聚类算法在确定聚类中心后,剩余点分配过程中,因某个点分配错误而导致的“多米诺骨牌”效应。利用k‑dist值剔除噪声点,使簇与簇之间更加独立;运用广度优先搜索遍历算法对簇进行遍历,实现样本点的聚类;最后将剩余点分批次的分配给离其最近的点所在的类。这种聚类策略减少了噪声点对聚类结果的影响,避免了聚类过程中因为一个点分配错误而导致的连锁反应,显著提高了聚类效果。

    一种基于深度信念网络的免疫入侵检测方法

    公开(公告)号:CN111107082A

    公开(公告)日:2020-05-05

    申请号:CN201911307783.7

    申请日:2019-12-18

    Abstract: 本发明公开了一种基于深度信念网络的免疫入侵检测方法,该方法包括:将待检测数据进行归一化处理;将归一化处理后的待检测数据输入训练好的深度信念网络模型进行降维处理,输出降维后的待检测数据;采用RNSA算法生成优化后的成熟检测器集;利用成熟检测器集中的成熟检测器对所述降维后的待检测数据进行检测识别,得到识别结果。本发明提供的方法解决了现有的免疫入侵检测方法检测速率慢、检测实时性较差的问题。

    一种基于聚类和边界点的不平衡数据处理方法

    公开(公告)号:CN112633337A

    公开(公告)日:2021-04-09

    申请号:CN202011463010.0

    申请日:2020-12-14

    Inventor: 姜诚 杨海波 张爽

    Abstract: 本发明公开了一种基于聚类和边界点的不平衡数据处理方法,首先获取不平衡数据比例,计算要合成的少数类样本数;然后利用DBSCAN聚类方法对少数类样本聚类,找出聚类个数较少的簇,作为噪声点去除;再计算任意少数类样本的K近邻样本距离之和,以距离平均值为半径,统计半径区域少数类样本中多数类个数,归一化处理得到样本边界区域权重;此外,以每个聚类簇为区域,计算聚类中心到簇中所有样本的距离,以距离倒数作为样本权重;最后,在每个边界区域和聚类中心利用SMOTE合成算法;得到的新数据集和原数据集合并,采用交叉验证划分数据,然后使用随机森林分类算法进行测试。本发明让合成的样本分布更加合理,通过实验证明在分类器上表现性能更加良好。

    基于动态K近邻代表点的密度峰值聚类算法

    公开(公告)号:CN113657419A

    公开(公告)日:2021-11-16

    申请号:CN202011498757.X

    申请日:2020-12-15

    Abstract: 本发明公布了一种基于动态K近邻代表点的密度峰值聚类算法,主要解决了原DPC算法需要手动选取聚类中心点且无法处理复杂结构数据集的缺点。实现过程为:(1)计算样本点的动态K邻域,以更好地反映数据集的空间分布情况;(2)根据新的局部密度计算公式计算样本点的局部密度ρi,计算样本点到其最近高密度点的距离δi;(3)根据样本点的聚类中心指标变化率选取聚类中心;(4)将非聚类中心点按照新的分配策略与对应的聚类中心点归为一类;(5)将剩余点分配给其最近高密度点所属的类。在人工数据集上的实验表明,对比于DPC算法,本发明算法不仅能自动选取聚类中心点,而且能获得正确的聚类结果,并且在处理复杂的数据集上优势较大。

    基于自然邻居扩散的密度峰值聚类方法

    公开(公告)号:CN113378930A

    公开(公告)日:2021-09-10

    申请号:CN202110652190.5

    申请日:2021-06-11

    Abstract: 本发明涉及一种基于自然邻居扩散的密度峰值聚类方法,旨在解决传统DPC聚类方法需要手动选取聚类中心且无法处理复杂流行数据集的缺点,传统的DPC聚类方法通过决策图手动获取数据集的聚类中心点,将非聚类中心点分配到其最近聚类中心点所属的类簇中,导致聚类精度不高,不能够满足实际应用的需求。针对此问题,本文引入了自然邻居的思想,通过样本点的自然邻居扩散自动选取聚类中心点,并基于自然邻居以及簇归属度对非聚类中心点进行聚类。本发明方法能自动选取聚类中心点,并获得理想的聚类结果,且在处理复杂流行数据集上优势较大。

Patent Agency Ranking