-
公开(公告)号:CN116720090A
公开(公告)日:2023-09-08
申请号:CN202310823043.9
申请日:2023-07-06
Applicant: 哈尔滨理工大学
IPC: G06F18/23 , G06F18/232
Abstract: 本文发明提出了一种方法,对于层次聚类中BIRCH算法对高维数据集聚类效果不佳且参数的选取敏感问题提出了一种解决方法。BIRCH算法是层次聚类算法中比较典型的一种算法,通过采用聚类特征和聚类特征树来进行聚类。但BIRCH算法为叶子节点中的簇设置统一的空间阈值T,根据数据对象与簇之间的欧式距离来决定数据对象的插入位置,从而忽略了簇与簇之间的关系。针对这种情况,本文提出了一种自适应的层次聚类方法。该算法使用了测地距离代替欧氏距离,克服欧式距离对高维数据的局限性,更好地刻画数据集的真实情况。通过分析数据的分布特征来自适应确定叶子节点的空间阈值T,构造一棵CF树。