拉链升级方法、装置、设备、存储介质及计算机程序产品

    公开(公告)号:CN119441243A

    公开(公告)日:2025-02-14

    申请号:CN202411678915.8

    申请日:2024-11-21

    Abstract: 本申请涉及大数据技术领域,公开了一种拉链升级方法、装置、设备、存储介质及计算机程序产品,该方法包括:获取变更数据,在生效表中新建当前时间分区,并将生效表的上一时间分区中的数据拷贝至当前时间分区,生效表为基于Hudi的COW类型生效表,对变更数据进行加工处理,将处理后数据插入当前时间分区,并通过目标操作对生效表的当前时间分区中的数据进行更新,其中,目标操作为结合PreCombine与Payload技术的特定操作,根据生效表异步更新失效表,失效表为基于Hudi的COW类型失效表;从而解决了拉链表更新速度慢、重传/回滚过程复杂、因需筛选而统计效率低下的问题。

    基于GBDT的集成学习方法、装置、及电子设备

    公开(公告)号:CN116204780A

    公开(公告)日:2023-06-02

    申请号:CN202111443697.6

    申请日:2021-11-30

    Abstract: 本申请提供基于GBDT的集成学习方法、装置、及电子设备,涉及数据挖掘技术领域。所述方法包括:基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;基于数据集,利用滑动窗口,得到衍生特征;对原始特征进行稀疏处理;组合衍生特征和稀疏处理后的原始特征,得到若干训练数据集;基于若干训练数据集,训练得到若干基模型;当需要完成分类任务时,基于若干基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。本申请提供的基于GBDT的集成学习方法,能够增加样本的多样性,降低模型偏差,改善集成学习效果;还能够发现特征之间的非线性关系,增加基模型的多样性,避免模型产生高方差,提高模型预测准确率。

    数据仓库的数据处理方法、装置、电子设备和存储介质

    公开(公告)号:CN116089431A

    公开(公告)日:2023-05-09

    申请号:CN202310072080.0

    申请日:2023-01-12

    Abstract: 本申请公开了一种数据仓库的数据处理方法、装置、电子设备和存储介质,属于计算机技术领域。通过源数据系统的数据源层获取待处理数据;数据仓库中的各个层级对获取的待处理数据执行各层级对应的数据处理操作,保证数据在数据仓库中各层级传输的有序性。本申请实施例明确了数据仓库中各个层级的处理数据的职责和汇总方法,进一步地,在数据仓库中新增了数据主题中间层,对数据轻汇总层所传输的数据进行主题划分,数据应用层能够对数据主题中间层所传输的数据进行分类,能够提升数据的汇总程度,更加快速地响应用户的应用需求。

Patent Agency Ranking