-
公开(公告)号:CN110119394A
公开(公告)日:2019-08-13
申请号:CN201910415497.6
申请日:2019-05-18
Applicant: 哈尔滨理工大学
IPC: G06F16/215
Abstract: 一种改进的分层注水数据清洗方法,为了解决现有技术中的油田分层数据清洗方法,在应对大数据环境下的高维数据时显得特别乏力,插补策略存在无法对数据的缺失情况进行判定的问题;本申请包括根据原始数据确定影响瞬时流量的t个因素;检测步骤S1确定的t个因素,并进行显著性验证;对原始数据进行分类,通过关联方程进行迭代分析,得到完整的数据集;对步骤S3的插补精度进行验证。在分层注水数的数据插补工作,完成对分层注水缺失值数据的数据清洗工作。
-
公开(公告)号:CN110119394B
公开(公告)日:2023-10-27
申请号:CN201910415497.6
申请日:2019-05-18
Applicant: 哈尔滨理工大学
IPC: G06F16/215
Abstract: 一种改进的分层注水数据清洗方法,为了解决现有技术中的油田分层数据清洗方法,在应对大数据环境下的高维数据时显得特别乏力,插补策略存在无法对数据的缺失情况进行判定的问题;本申请包括根据原始数据确定影响瞬时流量的t个因素;检测步骤S1确定的t个因素,并进行显著性验证;对原始数据进行分类,通过关联方程进行迭代分析,得到完整的数据集;对步骤S3的插补精度进行验证。在分层注水数的数据插补工作,完成对分层注水缺失值数据的数据清洗工作。
-
公开(公告)号:CN110008205A
公开(公告)日:2019-07-12
申请号:CN201910215789.5
申请日:2019-03-21
Applicant: 哈尔滨理工大学
IPC: G06F16/215
Abstract: 本发明公开了一种监控系统冗余数据清洗方法,具体包括以下步骤:计算待处理的数据集的每一个字段的字段区别度,读取监控系统的数据集,得到待检测的数据,字段区别数据库中不同记录的能力,某一字段取不同值的记录个数越多,则该字段的字段区别度越大,涉及数据清洗技术领域。一种监控系统冗余数据清洗方法,使用该方法,加快了关键字排序的速度,适用关联度作和作为判断重复数据的条件,加强了筛选重复记录的准确性,使用滑动区域自适应改变大小,保证了数据的完整度前提下,提高对重复数据清洗的精度,使用改进的重复数据匹配策略在数据记录匹配完整度与数据记录准确度都得到了提高,实现了监控系统对可靠性的需求。
-
-