-
公开(公告)号:CN111459646A
公开(公告)日:2020-07-28
申请号:CN202010387106.7
申请日:2020-05-09
Applicant: 南京大学
IPC: G06F9/48 , G06F16/215 , G06F16/27
Abstract: 本发明公开了一种基于管道模型与任务合并的大数据质量管理任务调度方法,包括以下步骤:第一步,从各类底层异构大数据源中读取脏数据;第二步,定义一系列数据质量检测与修复任务,发送给任务调度器;第三步,任务调度器对收到的数据质量管理任务进行分类;第四步,对可合并的分类后任务进行合并处理;第五步,通过并行化数据处理函数依次执行各类任务;第六步,统一输出并反馈数据质量检测与修复任务的执行结果。本发明可解决现有数据质量管理系统在大数据场景下性能不足的问题,提高数据质量管理任务执行效率,同时兼顾数据质量的检测与修复问题。
-
公开(公告)号:CN111459646B
公开(公告)日:2023-03-21
申请号:CN202010387106.7
申请日:2020-05-09
Applicant: 南京大学
IPC: G06F9/48 , G06F16/215 , G06F16/27
Abstract: 本发明公开了一种基于管道模型与任务合并的大数据质量管理任务调度方法,包括以下步骤:第一步,从各类底层异构大数据源中读取脏数据;第二步,定义一系列数据质量检测与修复任务,发送给任务调度器;第三步,任务调度器对收到的数据质量管理任务进行分类;第四步,对可合并的分类后任务进行合并处理;第五步,通过并行化数据处理函数依次执行各类任务;第六步,统一输出并反馈数据质量检测与修复任务的执行结果。本发明可解决现有数据质量管理系统在大数据场景下性能不足的问题,提高数据质量管理任务执行效率,同时兼顾数据质量的检测与修复问题。
-