应用于ETL的数据处理方法和装置及电子设备

    公开(公告)号:CN113886478B

    公开(公告)日:2024-09-17

    申请号:CN202111165389.1

    申请日:2021-09-30

    发明人: 查金祥

    IPC分类号: G06F16/25 G06F16/23 G06F16/28

    摘要: 公开了一种应用于ETL的数据处理方法和装置及电子设备。包括:对ODS层的新表中数据执行数据治理,生成STD层的新表;将STD层的新表与旧表进行比较,以识别所述STD层的新表中的增量数据;对所述STD层的新表中数据执行数据开发,生成DWD层的新表;将所述DWD层的新表与旧表进行比较,以识别所述DWD层的新表中的增量数据;将所述STD层和/或DWD层中的增量数据写入到目标服务库中。

    数据处理方法及分布式处理系统

    公开(公告)号:CN114297311B

    公开(公告)日:2024-08-23

    申请号:CN202111673185.9

    申请日:2021-12-31

    发明人: 张俊鹏

    IPC分类号: G06F16/27 G06F16/23 G06F16/28

    摘要: 本说明书提供一种数据处理方法及分布式处理系统,所述方法包括:第一节点获取增量数据、源数据集和目标数据集,并将增量数据、源数据集和目标数据集发送至目标比对装置;目标比对装置获取增量数据和目标数据集之间的第一比对结果,并获取增量数据和源数据集之间的第二比对结果;其中,第一比对结果指示目标数据集中是否存在增量数据;第二比对结果指示源数据集中是否存在增量数据;目标比对装置根据第一比对结果和第二比对结果,生成与增量数据和目标数据集对应的第一目标比对结果;其中,第一目标比对结果指示增量数据在源数据集与目标数据集中的存在状态,提高增量数据与目标数据集之间的比对结果的准确性。

    数据表处理系统、方法、装置、电子设备及存储介质

    公开(公告)号:CN118467539A

    公开(公告)日:2024-08-09

    申请号:CN202410584709.4

    申请日:2024-05-11

    发明人: 魏良宵

    IPC分类号: G06F16/22

    摘要: 本发明提出一种数据表处理系统、方法、装置、电子设备及存储介质,其中,系统包括:前端配置模块和后端处理模块,前端配置模块用于向用户提供多种配置操作,配置操作包括字段对齐、动作配置、关系配置、索引构建配置和数据召回配置,后端处理模块用于解析前端配置模块中用户的配置操作,并根据用户配置的各配对关系、各配对关系所指示的配对字段对应的目标动作、各目标动作之间的关系,以及标准数据表中的第二记录的索引、数据召回方式和召回策略,确定待匹配数据表中的第一记录与标准数据表中的第二记录之间的映射关系。由此,可将数据表与数据表之间的内容匹配流程统一,无需特定任务特定分析特定建模,具有一定的通用性,减少重复建模过程。

    数据表字段的关联字段推荐方法及装置

    公开(公告)号:CN112347320B

    公开(公告)日:2024-08-06

    申请号:CN202011226149.3

    申请日:2020-11-05

    摘要: 本发明实施例提供一种数据表字段的关联字段推荐方法及装置。本发明实施例通过获取数据表中的目标字段,利用已训练好的相似度模型,确定所述目标字段与预设的标准字段库中各标准字段的相似度,其中,用于训练所述相似度模型的样本数据中,输入字段之间的相似度是根据所述输入字段是否属于同一数据表确定的,根据所述各标准字段对应的相似度确定所述目标字段对应的关联字段,利用数据表内字段的非冗余性构造训练的样本数据,提高了相似度模型的相似度计算结果的准确性,使得推荐的关联字段准确性更高,进而提高了数据表字段与标准字段的匹配准确性。

    文件读取方法、装置、电子设备和存储介质

    公开(公告)号:CN112231293B

    公开(公告)日:2024-07-19

    申请号:CN202010961161.2

    申请日:2020-09-14

    发明人: 周一帆

    摘要: 本申请提出一种文件读取方法、装置、电子设备和存储介质,其中,方法包括:响应于接收到的读取指令,获取当前周期分布式文件系统表目录下的至少两个待读取的原始文件;在至少两个原始文件满足预设合并策略时,合并至少两个原始文件以生成至少一个合并文件;在原始文件全部完成合并时,根据合并文件更新分布式文件系统中的表目录,以便于客户端根据更新后的表目录提供文件读取服务。由此,当读取的文件中存在大量原始文件时,实现对原始文件的合并,提高对分布式文件系统的内存利用率,提高了文件读取效率,且在合并文件过程中,不影响数据库的数据读取任务的执行。

    数据资产血缘生成方法、装置、电子设备

    公开(公告)号:CN112328575B

    公开(公告)日:2024-07-05

    申请号:CN202011260932.1

    申请日:2020-11-12

    发明人: 自建华 张天基

    摘要: 公开一种数据资产血缘生成方法、装置、电子设备及机器可读存储介质。在本申请中,基于从对接的数据治理平台获取数据治理后的数据表和与所述数据表对应的表级血缘关系,响应于对数据表的数据资产盘点的指令将已盘点的数据表确定为数据资产,基于表级血缘关系生成与数据资产对应的资产血缘关系,以及基于资产血缘关系进一步生成全链路资产使用血缘关系及全链路资产部门血缘关系。针对数据资产实现了包括资产维度、资产与使用部门维度、资产使用部门与资产所属部门维度的多维度全链路的血缘生成及展示,便于用户基于对数据资产进行溯源分析及影响分析,提高了数据资产的管理效率。

    一种数据质量评估方法及装置

    公开(公告)号:CN113779150B

    公开(公告)日:2024-06-18

    申请号:CN202111073709.0

    申请日:2021-09-14

    发明人: 林鹏程 胡妍菲

    IPC分类号: G06F16/27 G06F16/215

    摘要: 本申请提供了一种数据质量评估方法及装置,利用至少两种不同的抽取规则,从待同步数据中抽取得到数据样本,并对每个抽取规则对应的数据样本进行质量评估得到初始质量评估值。进一步,计算各个数据样本对应的初始质量评估值之间的偏差,如果该偏差在预设偏差范围内,则根据各个数据样本对应的初始质量评估值得到目标质量评估值;若该目标质量评估值在预设评估值范围内,确定待同步数据的待评估字段的数据符合上报质量。该方案在将数据同步至中心数据库之前,对待同步数据进行质量评估,提高了数据资源的数据质量,同时,避免由于数据质量低导致数据分享失败,且避免了同步无效数据。

    水印信息的嵌入方法、提取方法、装置、设备及存储介质

    公开(公告)号:CN118195884A

    公开(公告)日:2024-06-14

    申请号:CN202410355785.8

    申请日:2024-03-26

    发明人: 周轶凡

    IPC分类号: G06T1/00

    摘要: 本说明书公开了一种水印信息的嵌入方法、提取方法、装置、设备及存储介质。首先,获取待嵌入水印信息的原始数据,原始数据包含若干小数形式的数值。然后,按照预设精度,对原始数据进行放大处理,得到放大数据,精度用于表示小数形式的数值的最小单位。而后,将获取到的目标水印信息嵌入到放大数据,得到嵌入目标水印信息后的放大数据。最后,按照放大处理所采用的放大倍数,对嵌入目标水印信息后的放大数据进行缩小处理,得到嵌入目标水印信息后的目标数据。本方法可以降低嵌入的水印信息对原始数据的影响,进而,提高在后续处理业务时得到业务结果的准确性。

    不中断业务的索引表更新方法、装置、设备及存储介质

    公开(公告)号:CN118152412A

    公开(公告)日:2024-06-07

    申请号:CN202311759338.0

    申请日:2023-12-19

    摘要: 本申请提出一种不中断业务的索引表更新方法、装置、设备及存储介质,其中,方法包括:通过对集群中第一节点存有的目标索引表进行版本更新,并在目标索引表的版本更新过程中,将命中所述目标索引表的搜索请求路由至所述集群中的第二节点。由于第二节点存储有所述目标索引表的备份,因此,能够对命中目标索引表的搜索请求进行响应,解决了目标索引表更新过程中的业务连续性问题,提高了集群的性能。

    数据同步方法、装置、电子设备及存储介质

    公开(公告)号:CN113076365B

    公开(公告)日:2024-05-10

    申请号:CN202110374388.1

    申请日:2021-04-07

    发明人: 张鹏 江峰 褚占峰

    IPC分类号: G06F16/25 G06F16/27

    摘要: 本发明实施例提供一种数据同步方法、装置、电子设备及存储介质。本发明实施例通过生成目标转换模板,所述目标转换模板配置的转换节点包括至少一个输入节点和一个输出节点,加载所述目标转换模板的输入节点对应的源数据库信息以及所述目标转换模板的各个输出节点对应的目的数据库信息,并确定源数据库中待同步的多个源数据表,根据所述目标转换模板,批量创建所述多个源数据表对应的ETL任务,通过所述ETL任务同步所述多个源数据表的数据至目的数据库,能够批量创建用于进行数据同步的ETL任务,提高了ETL任务的配置效率和数据同步效率。