一种基于决策树的缺失数据填充方法及系统

    公开(公告)号:CN113254428A

    公开(公告)日:2021-08-13

    申请号:CN202010100294.0

    申请日:2020-02-18

    Inventor: 宋莹 戴政君

    Abstract: 本发明提出了一种基于决策树的缺失数据填充方法及系统,包括:判断分析样本缺失的属性值为离散型或者为连续型,并对离散型的样本缺失和连续型的样本缺失分别采用分类树和回归树进行预测填充;对连续型的数据进行归一化处理,并将文本类型的数据转换成数值型类型的数据,以及随机打乱具有一定的排列规律的数据顺序;从整体数据集中筛选出完整样本作为第一轮的训练集,首先将缺失1列的样本数据作为测试集,将决策树模型的预测结果作为缺失数据的值进行填充,并将该填充后的样本数据追加到完整数据集,然后依次对于缺失2、3、……、n列的样本数据进行填充,直到填充数据的精确度低于设置的值终止;保存填充后的数据,删除未填充的数据。

Patent Agency Ranking