基于密度相似性的密度峰值聚类算法

    公开(公告)号:CN114638301A

    公开(公告)日:2022-06-17

    申请号:CN202210264661.X

    申请日:2022-03-17

    Abstract: 本发明针对密度峰值聚类算法(DPC)不适用于流形数据集、聚类中心的选择需要人为干预且会在剩余点分配会出现多米诺效应的缺陷。提出了一种基于密度相似性的密度峰值聚类算法(DA‑DPC)。首先,引用密度相识度来代替欧式距离来适用处理流形数据集,可以消除dc对算法结果的影响;其次,根据密度聚类指数的特点和聚类的定义,设计了一种新的密度聚类指数(DCI),自动获取聚类中心,降低参数对聚类结果的影响;对于剩余点提出两种匹配策略,更好的达到聚类效果;实验表明,该算法在人工数据集和UCI真实数据集上比常用的几种聚类算法具有更好的聚类效果。

    基于半监督的信息熵主成分分析降维方法

    公开(公告)号:CN113378021A

    公开(公告)日:2021-09-10

    申请号:CN202110771799.4

    申请日:2021-07-08

    Abstract: 本发明涉及一种基于半监督的信息熵主成分分析降维方法,属于数据挖掘高维数据降维领域,本发明旨在解决传统PCA算法在实际应用中存在的问题,当数据维数过高时,数据中包含的信息比较复杂,导致分类器的识别度不高,并且次方法处理数据时,耗时太长,不能够满足实际应用的需求。针对此问题,本文引入了信息熵的思想以及半监督学习方法,对PCA算法进行了改进,使得改进后的算法能够用于处理高维数据,并进行降维。本发明可以避免噪声对数据聚类的影响,具有较高的噪声抗干扰能力,有效的避免了高维数据引起的维度灾难问题。

    基于密度的加权模糊C-均值聚类方法

    公开(公告)号:CN113010907A

    公开(公告)日:2021-06-22

    申请号:CN202110471176.5

    申请日:2021-04-29

    Abstract: 本发明涉及一种基于密度的加权模糊C‑均值聚类方法,数据数据挖掘数据对象的聚领域,本发明旨在解决传统的FCM聚类算法在实际应用中存在的问题,传统的FCM聚类方法直接对数据集中的数据进行处理,计算它们的目标函数,通过目标函数求出隶属度函数以及聚类中心函数,导致聚类精度不高,不能够满足实际应用的需求。针对此问题,本文引入了基于密度的思想,对FCM聚类算法进行了改进,使得改进后的算法能够提高聚类的精度。本发明可以避免噪声对数据聚类的影响,具有较高的噪声抗干扰能力,有效的提高了聚类的效率。

    基于多维多值数据的改进Fp-Growth算法

    公开(公告)号:CN114610794A

    公开(公告)日:2022-06-10

    申请号:CN202210239408.9

    申请日:2022-03-09

    Inventor: 赵琦 万静 王言言

    Abstract: 本发明针对在面向多维多值数据时,应用传统的Fp‑Growth算法方法在构建Fp‑tree树过程中会占据大量的空间内存,而应用Apriori算法从一项频繁集自连接到频繁二项集会产生大量的候选项集,造成数据爆炸,降低挖掘效率的缺陷。提出了在Fp‑Growth算法的基础上,将多维多值数据依据支持度进行合理排序,来减少构建Fp‑tree过程中所占的空间内存,针对候选项集生成的条件模式基进行“镶嵌”操作,提高挖掘效率,实验表明该算法在人工数据集和UCI真实数据集上比常用的几种关联规则算法具有更好的挖掘效果。

    基于加权共享最近邻的自适应聚类中心密度峰值聚类算法

    公开(公告)号:CN113222027A

    公开(公告)日:2021-08-06

    申请号:CN202110543631.8

    申请日:2021-05-19

    Abstract: 本发明针对密度峰值聚类算法(DPC)需要人为设置截断距离dc、无法自动识别聚类中心的缺陷。提出了一种基于加权共享最近邻的自适应密度峰值聚类算法(WSNN‑ADPC)。首先,结合共享最近邻和指数核函数引入了新的局部密度;其次,提出一种新的聚类中心自适应策略;最后,将剩余的数据点分配到距离最近的聚类中心的簇中。实验表明,该算法在人工数据集和UCI真实数据集上比常用的几种聚类算法具有更好的聚类效果。

Patent Agency Ranking