-
公开(公告)号:CN110263230B
公开(公告)日:2021-04-06
申请号:CN201910341078.2
申请日:2019-04-25
Applicant: 北京科技大学
IPC: G06F16/903 , G06F16/906
Abstract: 本发明提供一种基于密度聚类的数据清洗方法及装置,能够提高清洗结果的准确率。所述方法包括:获取待清洗的数据集,其中,所述数据集中样本的属性值包括:数值型数据和字符型数据;对数值型数据和字符型数据分别采用标准化的欧式距离和基于编辑距离的字符串相似度算法,确定数据集中样本间的距离;根据确定的数据集中样本间的距离,对DBSCAN算法的eps和minPts进行估计;将估计的eps和minPts值作为DBSCAN参数值,对待清洗的数据集进行密度聚类;根据聚类结果,对待清洗的数据集中的数据进行清洗。本发明涉及数据挖掘领域。
-
公开(公告)号:CN110263230A
公开(公告)日:2019-09-20
申请号:CN201910341078.2
申请日:2019-04-25
Applicant: 北京科技大学
IPC: G06F16/903 , G06F16/906
Abstract: 本发明提供一种基于密度聚类的数据清洗方法及装置,能够提高清洗结果的准确率。所述方法包括:获取待清洗的数据集,其中,所述数据集中样本的属性值包括:数值型数据和字符型数据;对数值型数据和字符型数据分别采用标准化的欧式距离和基于编辑距离的字符串相似度算法,确定数据集中样本间的距离;根据确定的数据集中样本间的距离,对DBSCAN算法的eps和minPts进行估计;将估计的eps和minPts值作为DBSCAN参数值,对待清洗的数据集进行密度聚类;根据聚类结果,对待清洗的数据集中的数据进行清洗。本发明涉及数据挖掘领域。
-