一种基于多粒度相对密度的标签噪声检测方法

    公开(公告)号:CN111178387A

    公开(公告)日:2020-05-19

    申请号:CN201911222298.X

    申请日:2019-12-03

    Abstract: 本发明公开了一种基于多粒度相对密度的标签噪声检测方法,属于数据分类领域。该方法包括步骤:S1:基于多粒度相对密度的标签噪声检测方法利用KMeans算法将数据集划分为K个簇,计算每个样本在粒度上的改进相对密度。改进相对密度定义为,首先分别计算正、负样本的质心,然后求出样本分别到同类质心和异类质心的距离,并用该距离的比值作为该粒度下的改进相对密度;S2:改变K值,重复S1中的过程,计算每个样本在不同粒度下的改进相对密度;S3:将改进相对密度超过一定阈值的样本作为标签噪声。本发明将粒度计算引入到改进相对密度模型中,该方法比传统方法具有更高的效率。

    基于空间划分的快速相对密度噪声检测方法及存储介质

    公开(公告)号:CN111160391A

    公开(公告)日:2020-05-15

    申请号:CN201911222310.7

    申请日:2019-12-03

    Abstract: 本发明请求保护一种基于空间划分的快速相对密度噪声检测方法及存储介质。传统相对密度方法在标签噪声检测中很有效,但是时间复杂度很高。本发明中引入了空间划分的方法,将原始数据集在欧式空间中递归地划分为许多个包含更少数据的子分区,划分过程是否持续依据每个子分区所包含的数据的多少,因此得到的所有的子分区中的数据量是相当的。然后在每个子分区内部使用改进的相对密度公式分别计算每个样本的相对密度;根据每个样本的相对密度大小判断其是否为标签噪声。该方法大大改善了相对密度在数据量较大时效率低这一弱点。

Patent Agency Ranking