-
公开(公告)号:CN115712623B
公开(公告)日:2023-07-18
申请号:CN202211468833.1
申请日:2022-11-22
Applicant: 中国司法大数据研究院有限公司
IPC: G06F16/22 , G06F16/2458 , G06F16/28
Abstract: 本发明公开了一种基于捕获元数据变更的批量数据容错采集方法,其步骤包括:1)定时任务获取数据源的元数据最新版本信息,当发生变化时将该数据源的元数据信息推送给消息中间件;2)消息中间件根据该数据源的元数据最新版本信息与上一版本信息,依次进行元数据识别、元数据纠错、元数据匹配、元数据对比,如果对比结果是字段数量发生变更则进行容错处理并暂停当前任务;如果对比结果是字段类型发生变更,则判断变更后的字段类型是否和hive类型对应,如果对应,则继续当前的批量采集任务;如果变更后的字段类型与hive类型不对应则进行容错处理并暂停当前任务;3)根据执行完容错处理所生成的批量采集任务,对数据源进行数据采集。
-
公开(公告)号:CN115712623A
公开(公告)日:2023-02-24
申请号:CN202211468833.1
申请日:2022-11-22
Applicant: 中国司法大数据研究院有限公司
IPC: G06F16/22 , G06F16/2458 , G06F16/28
Abstract: 本发明公开了一种基于捕获元数据变更的批量数据容错采集方法,其步骤包括:1)定时任务获取数据源的元数据最新版本信息,当发生变化时将该数据源的元数据信息推送给消息中间件;2)消息中间件根据该数据源的元数据最新版本信息与上一版本信息,依次进行元数据识别、元数据纠错、元数据匹配、元数据对比,如果对比结果是字段数量发生变更则进行容错处理并暂停当前任务;如果对比结果是字段类型发生变更,则判断变更后的字段类型是否和hive类型对应,如果对应,则继续当前的批量采集任务;如果变更后的字段类型与hive类型不对应则进行容错处理并暂停当前任务;3)根据执行完容错处理所生成的批量采集任务,对数据源进行数据采集。
-