一种基于自动特征编码的多阶特征组合方法

    公开(公告)号:CN111582325A

    公开(公告)日:2020-08-25

    申请号:CN202010312421.3

    申请日:2020-04-20

    Abstract: 本发明公开了一种基于自动特征编码的多阶特征组合方法,包括步骤:1)对日志型数据的训练集进行预处理和数据采样;2)构建代理搜索模型对特征组进行搜索,得到评价指标最高的特征组;3)构建复合目标编码器对选中的特征组编码,得到多阶组合特征;4)对多阶组合特征进行内嵌式特征选择,保留有效特征;5)重复步骤2)-4),最终得到完整的有效组合特征编码表;6)参照有效组合特征编码表,使用复合目标编码器对训练集和测试集转化,获得多阶特征组合训练集和测试集。本发明方法能够自动完成预处理、特征工程等一系列步骤,有助于机器学习平台节省人工成本、降低特征工程时间开销和提升预测精度。

    一种基于自动特征编码的多阶特征组合方法

    公开(公告)号:CN111582325B

    公开(公告)日:2023-04-07

    申请号:CN202010312421.3

    申请日:2020-04-20

    Abstract: 本发明公开了一种基于自动特征编码的多阶特征组合方法,包括步骤:1)对日志型数据的训练集进行预处理和数据采样;2)构建代理搜索模型对特征组进行搜索,得到评价指标最高的特征组;3)构建复合目标编码器对选中的特征组编码,得到多阶组合特征;4)对多阶组合特征进行内嵌式特征选择,保留有效特征;5)重复步骤2)‑4),最终得到完整的有效组合特征编码表;6)参照有效组合特征编码表,使用复合目标编码器对训练集和测试集转化,获得多阶特征组合训练集和测试集。本发明方法能够自动完成预处理、特征工程等一系列步骤,有助于机器学习平台节省人工成本、降低特征工程时间开销和提升预测精度。

Patent Agency Ranking