基于GBDT的集成学习方法、装置、及电子设备

    公开(公告)号:CN116204780A

    公开(公告)日:2023-06-02

    申请号:CN202111443697.6

    申请日:2021-11-30

    Abstract: 本申请提供基于GBDT的集成学习方法、装置、及电子设备,涉及数据挖掘技术领域。所述方法包括:基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;基于数据集,利用滑动窗口,得到衍生特征;对原始特征进行稀疏处理;组合衍生特征和稀疏处理后的原始特征,得到若干训练数据集;基于若干训练数据集,训练得到若干基模型;当需要完成分类任务时,基于若干基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。本申请提供的基于GBDT的集成学习方法,能够增加样本的多样性,降低模型偏差,改善集成学习效果;还能够发现特征之间的非线性关系,增加基模型的多样性,避免模型产生高方差,提高模型预测准确率。

    数据的高维特征获取方法、装置、设备及计算机存储介质

    公开(公告)号:CN114429166A

    公开(公告)日:2022-05-03

    申请号:CN202011182603.X

    申请日:2020-10-29

    Abstract: 本申请提供了一种数据的高维特征获取方法、装置、设备及计算机存储介质。该数据的高维特征获取方法,获取原始数据;对原始数据进行预处理,得到处理后的数据;对处理后的数据进行独热编码,得到第一特征;基于机器学习算法,利用处理后的数据,生成第二特征;将第一特征和第二特征合并,并判断合并后的特征的重要度是否满足预设重要度阈值;在确定满足预设重要度阈值的情况下,复制扩充合并后的特征得到高维特征。根据本申请实施例,能够获取准确率高、特征区分显著的高维特征。

    数据处理方法、装置、设备及存储介质

    公开(公告)号:CN117314553A

    公开(公告)日:2023-12-29

    申请号:CN202311191654.2

    申请日:2023-09-14

    Abstract: 本发明公开了一种数据处理方法、装置、设备及存储介质,属于产品推荐技术领域。本发明获取当前信令数据和当前用户属性数据;将当前信令数据进行融合,得到时空统计特征数据;将当前用户属性数据按照预设编码策略映射为统一维度的目标用户基础属性特征;基于时空统计特征数据计算各统计特征的相似度,并根据计算结果得到目标时空信息特征;将目标时空信息特征和目标用户基础属性特征输入至成功率预测模型,得到用户属性;根据用户属性进行产品推荐,成功率预测模型为解码器结构更新后的结构,可以提取到不同模态特征深层的联系,从而更有效的对特征进行融合和提取,适用多种产品推荐场景,提高产品推荐的效果。

    特征处理方法、装置、设备及计算机存储介质

    公开(公告)号:CN115952468A

    公开(公告)日:2023-04-11

    申请号:CN202211646017.5

    申请日:2022-12-20

    Abstract: 本申请公开了一种特征处理方法、装置、设备及计算机存储介质,涉及大数据技术领域。该方法包括:获取样本数据集,所述样本数据集中包括N个用户样本一一对应的目标信息,所述目标信息包括样本标签和在M个特征下分别对应的M个特征标签;基于所述N个用户样本一一对应的目标信息,采用catboost算法对所述样本数据集中的M个特征进行特征交叉,得到Q个混合特征,所述Q个混合特征用于作为目标预测模型的输入特征;其中,所述Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。根据本申请实施例,能够直接对样本特征进行特征衍生,从而有效避免了高维稀疏特征的出现。

Patent Agency Ranking