-
公开(公告)号:CN112148764B
公开(公告)日:2024-05-07
申请号:CN201910576711.6
申请日:2019-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/2458
Abstract: 本申请提供一种特征的筛选方法、装置、设备和存储介质,该方案中,电子设备获取待筛选的多个样本,每个样本中包括至少一个类型的特征,根据预设时间间隔,获取不同时间段内的每个类型的特征的互信息和覆盖率,根据每个时间段内的每个类型的特征的互信息和覆盖率,获取每个类型特征的稳定性指标,根据每个类型的特征的稳定性指标,对所述多个样本中的特征进行筛选,通过计算在不同时间段上稳定性衡量的动态指标来做特征选择,可有效提升建模效果,提高模型准确度。
-
公开(公告)号:CN112149702A
公开(公告)日:2020-12-29
申请号:CN201910576748.9
申请日:2019-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/62
Abstract: 本发明实施例提供一种特征的处理方法和装置,该方法包括:获取待处理数据集合,所述待处理数据集合中包括至少两个类型的特征,以及每个类型的特征对应的至少两个数据,计算得到所述待处理数据集合中的每两个类型的特征之间的相关系数,所述相关系数表示两类特征的关联程度,采用重要性分析模型,获取所述至少两个类型的特征的重要性排序,根据所述相关系数与所述重要性排序,对所述至少两个类型的特征进行过滤,得到用于模型训练的特征。这样,结合相关系数与重要性来进行特征筛选,提高了特征筛选的准确度,从而提升了建模效果。
-
公开(公告)号:CN112148764A
公开(公告)日:2020-12-29
申请号:CN201910576711.6
申请日:2019-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/2458
Abstract: 本申请提供一种特征的筛选方法、装置、设备和存储介质,该方案中,电子设备获取待筛选的多个样本,每个样本中包括至少一个类型的特征,根据预设时间间隔,获取不同时间段内的每个类型的特征的互信息和覆盖率,根据每个时间段内的每个类型的特征的互信息和覆盖率,获取每个类型特征的稳定性指标,根据每个类型的特征的稳定性指标,对所述多个样本中的特征进行筛选,通过计算在不同时间段上稳定性衡量的动态指标来做特征选择,可有效提升建模效果,提高模型准确度。
-
-