-
公开(公告)号:CN111582325A
公开(公告)日:2020-08-25
申请号:CN202010312421.3
申请日:2020-04-20
Applicant: 华南理工大学
IPC: G06K9/62 , G06F16/18 , G06F16/2458
Abstract: 本发明公开了一种基于自动特征编码的多阶特征组合方法,包括步骤:1)对日志型数据的训练集进行预处理和数据采样;2)构建代理搜索模型对特征组进行搜索,得到评价指标最高的特征组;3)构建复合目标编码器对选中的特征组编码,得到多阶组合特征;4)对多阶组合特征进行内嵌式特征选择,保留有效特征;5)重复步骤2)-4),最终得到完整的有效组合特征编码表;6)参照有效组合特征编码表,使用复合目标编码器对训练集和测试集转化,获得多阶特征组合训练集和测试集。本发明方法能够自动完成预处理、特征工程等一系列步骤,有助于机器学习平台节省人工成本、降低特征工程时间开销和提升预测精度。
-
公开(公告)号:CN111582325B
公开(公告)日:2023-04-07
申请号:CN202010312421.3
申请日:2020-04-20
Applicant: 华南理工大学
IPC: G06F18/25 , G06F18/214 , G06F16/18 , G06F16/2458
Abstract: 本发明公开了一种基于自动特征编码的多阶特征组合方法,包括步骤:1)对日志型数据的训练集进行预处理和数据采样;2)构建代理搜索模型对特征组进行搜索,得到评价指标最高的特征组;3)构建复合目标编码器对选中的特征组编码,得到多阶组合特征;4)对多阶组合特征进行内嵌式特征选择,保留有效特征;5)重复步骤2)‑4),最终得到完整的有效组合特征编码表;6)参照有效组合特征编码表,使用复合目标编码器对训练集和测试集转化,获得多阶特征组合训练集和测试集。本发明方法能够自动完成预处理、特征工程等一系列步骤,有助于机器学习平台节省人工成本、降低特征工程时间开销和提升预测精度。
-