-
公开(公告)号:CN118861535B
公开(公告)日:2025-04-04
申请号:CN202411359486.8
申请日:2024-09-27
Applicant: 国网江西省电力有限公司信息通信分公司
IPC: G06F18/10 , G06F18/232 , G06F18/2413 , G06F18/2433 , G06N3/045 , G06N3/084 , G06F21/53
Abstract: 本发明提供了一种基于数据安全沙箱的数据清洗方法及系统,涉及数据清洗领域。技术方案:提取处理数据安全沙箱内数据得到原始数据,进一步处理得到特征向量集后,分类得到若干个向量组;重采样原始数据并划分为训练集和测试集,引入特征差异加权机制堆叠组合多个增强特征编码器搭建得到初始模型,基于训练集和测试集对初始模型进行训练和测试得到SEFE模型;用SEFE模型对所述特征向量集去噪后进行异常值检测得到异常值,将异常值超过判定标准标记为异常数据;聚类后计算异常数据的分布与正常数据分布的差异度,将差异度超过预设阈值的异常数据评级为脏数据,提取脏数据进行数据管理。本发明提高了针对数据安全沙盒的数据清洗的效率和速度和筛查能力。
-
公开(公告)号:CN118861535A
公开(公告)日:2024-10-29
申请号:CN202411359486.8
申请日:2024-09-27
Applicant: 国网江西省电力有限公司信息通信分公司
IPC: G06F18/10 , G06F18/232 , G06F18/2413 , G06F18/2433 , G06N3/045 , G06N3/084 , G06F21/53
Abstract: 本发明提供了一种基于数据安全沙箱的数据清洗方法及系统,涉及数据清洗领域。技术方案:提取处理数据安全沙箱内数据得到原始数据,进一步处理得到特征向量集后,分类得到若干个向量组;重采样原始数据并划分为训练集和测试集,引入特征差异加权机制堆叠组合多个增强特征编码器搭建得到初始模型,基于训练集和测试集对初始模型进行训练和测试得到SEFE模型;用SEFE模型对所述特征向量集去噪后进行异常值检测得到异常值,将异常值超过判定标准标记为异常数据;聚类后计算异常数据的分布与正常数据分布的差异度,将差异度超过预设阈值的异常数据评级为脏数据,提取脏数据进行数据管理。本发明提高了针对数据安全沙盒的数据清洗的效率和速度和筛查能力。
-