一种基于海量数据处理的数据治理的方法及系统

    公开(公告)号:CN110162516A

    公开(公告)日:2019-08-23

    申请号:CN201910444787.3

    申请日:2019-05-27

    摘要: 本发明公开了一种基于海量数据处理的数据治理的方法及系统,属于海量数据处理领域,本发明要解决的技术问题为如何能够对庞大的数据快速、准确的定位出问题并做到问题数据有源可寻、有据可依、有错必改,采用的技术方案为:①该方法基于大数据批处理框架,采用分布式计算思想,将数据与业务含义进行绑定,在海量数据中进行校验和运算,将问题数据输出并按照json格式结构进行保存;具体步骤如下:S1、建立业务数据库、标准数据库、基础规则库和错误数据库;S2、检测基础规则库;S3、建立业务规则库;S4、建立数据检测模板;S5、制定数据质量检测任务;S6、启动数据质量检测任务。②该系统包括数据层、服务层、表现层和管控层。

    一种基于引擎设置抽取数据的方法及系统

    公开(公告)号:CN110633301B

    公开(公告)日:2023-06-02

    申请号:CN201910886029.7

    申请日:2019-09-19

    发明人: 宋晗

    摘要: 本发明公开了一种基于引擎设置抽取数据的方法及系统,属于数据抽取技术领域。本发明的基于引擎设置抽取数据的方法基于海量数据,按照数据规则设置进行数据随机抽取,保证数据规则设定的基础数据内的全部数据被抽中的概率一致,同时运行过程重现和过程追溯。该发明的基于引擎设置抽取数据的方法在数据抽取过程中能够快速的定位数据并进行抽取,同时允许过程重现,过程追溯,具有很好的推广应用价值。

    一种基于引擎设置抽取数据的方法及系统

    公开(公告)号:CN110633301A

    公开(公告)日:2019-12-31

    申请号:CN201910886029.7

    申请日:2019-09-19

    发明人: 宋晗

    摘要: 本发明公开了一种基于引擎设置抽取数据的方法及系统,属于数据抽取技术领域。本发明的基于引擎设置抽取数据的方法基于海量数据,按照数据规则设置进行数据随机抽取,保证数据规则设定的基础数据内的全部数据被抽中的概率一致,同时运行过程重现和过程追溯。该发明的基于引擎设置抽取数据的方法在数据抽取过程中能够快速的定位数据并进行抽取,同时允许过程重现,过程追溯,具有很好的推广应用价值。

    一种汉字字义、字音、字形的相似度比对系统及方法

    公开(公告)号:CN109840326A

    公开(公告)日:2019-06-04

    申请号:CN201910098963.2

    申请日:2019-01-31

    IPC分类号: G06F17/27

    摘要: 本发明公开了一种汉字字义、字音、字形的相似度比对系统及方法,属于大数据技术领域。本发明的汉字字义、字音、字形的相似度比对系统包括服务层、数据层和管控层,所述管控层设置有汉字相似度库、汉字相似度比对规则和分布式内存计算,服务层中运行汉字相似度比对和分布式内存计算,数据层用于存储名称比对过程的数据。该发明的汉字字义、字音、字形的相似度比对系统能够更加科学准确的进行名称相似度比对,提高了名称相似度比对的准确性,大大提高名称审核的工作效率,具有很好的推广应用价值。