一种基于聚合模型的海量数据质量报告生成方法

    公开(公告)号:CN109669936A

    公开(公告)日:2019-04-23

    申请号:CN201811586804.9

    申请日:2018-12-25

    Inventor: 肖俊鑫

    Abstract: 本发明涉及一种基于聚合模型的海量数据质量报告生成方法,通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型,所谓的聚合模型就是原来整体的数据,根据聚合特性可以拆分和合并,这样就能支持离线计算,支持多个校验处理单元并行校验;另外生成大规模数据质量报告的结果数据也不是一个整体,而是来自多个数据质量校验的处理单元输出的数据质量报告结果,通过消息队列统一消化和聚合,最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。本发明既能支持通用校验规则的定制,又能支持海量大规模数据进行离线数据校验。

Patent Agency Ranking