-
公开(公告)号:CN115729957B
公开(公告)日:2024-01-19
申请号:CN202211501087.1
申请日:2022-11-28
Applicant: 安徽大学
IPC: G06F16/245 , G06F16/25
Abstract: 本申请提出了一种基于最大信息系数的未知流特征选择方法及装置,涉及数据挖掘领域,包括:根据公共数据集获取目标数据集,得到数据集的条件特征空间与类标签;根据随机选择特征方法确定数据集内特征不断产生并到达的场景;计算场景中新到达的特征和类标签之间的第一相关性,根据第一相关性与第一特征子集的平均相关性大小差值,确定是否丢弃特征;若所述特征保留,确定所述特征与所述第一特征子集的第二相关性,并在所述第二相关性大于预设阈值时,将所述特征加入所述第一特征子集,生成第二特征子集;当没有特征到达场景或程序结束时,输出第二特征子集。本申请在不需要知道每个特征类型时,精确保留数据集所需的最佳显著特征,提高效率。
-
公开(公告)号:CN115729957A
公开(公告)日:2023-03-03
申请号:CN202211501087.1
申请日:2022-11-28
Applicant: 安徽大学
IPC: G06F16/245 , G06F16/25
Abstract: 本申请提出了一种基于最大信息系数的未知流特征选择方法及装置,涉及数据挖掘领域,包括:根据公共数据集获取目标数据集,得到数据集的条件特征空间与类标签;根据随机选择特征方法确定数据集内特征不断产生并到达的场景;计算场景中新到达的特征和类标签之间的第一相关性,根据第一相关性与第一特征子集的平均相关性大小差值,确定是否丢弃特征;若所述特征保留,确定所述特征与所述第一特征子集的第二相关性,并在所述第二相关性大于预设阈值时,将所述特征加入所述第一特征子集,生成第二特征子集;当没有特征到达场景或程序结束时,输出第二特征子集。本申请在不需要知道每个特征类型时,精确保留数据集所需的最佳显著特征,提高效率。
-