一种基于最大信息系数的未知流特征选择方法及装置

    公开(公告)号:CN115729957B

    公开(公告)日:2024-01-19

    申请号:CN202211501087.1

    申请日:2022-11-28

    Applicant: 安徽大学

    Abstract: 本申请提出了一种基于最大信息系数的未知流特征选择方法及装置,涉及数据挖掘领域,包括:根据公共数据集获取目标数据集,得到数据集的条件特征空间与类标签;根据随机选择特征方法确定数据集内特征不断产生并到达的场景;计算场景中新到达的特征和类标签之间的第一相关性,根据第一相关性与第一特征子集的平均相关性大小差值,确定是否丢弃特征;若所述特征保留,确定所述特征与所述第一特征子集的第二相关性,并在所述第二相关性大于预设阈值时,将所述特征加入所述第一特征子集,生成第二特征子集;当没有特征到达场景或程序结束时,输出第二特征子集。本申请在不需要知道每个特征类型时,精确保留数据集所需的最佳显著特征,提高效率。

    一种基于最大信息系数的未知流特征选择方法及装置

    公开(公告)号:CN115729957A

    公开(公告)日:2023-03-03

    申请号:CN202211501087.1

    申请日:2022-11-28

    Applicant: 安徽大学

    Abstract: 本申请提出了一种基于最大信息系数的未知流特征选择方法及装置,涉及数据挖掘领域,包括:根据公共数据集获取目标数据集,得到数据集的条件特征空间与类标签;根据随机选择特征方法确定数据集内特征不断产生并到达的场景;计算场景中新到达的特征和类标签之间的第一相关性,根据第一相关性与第一特征子集的平均相关性大小差值,确定是否丢弃特征;若所述特征保留,确定所述特征与所述第一特征子集的第二相关性,并在所述第二相关性大于预设阈值时,将所述特征加入所述第一特征子集,生成第二特征子集;当没有特征到达场景或程序结束时,输出第二特征子集。本申请在不需要知道每个特征类型时,精确保留数据集所需的最佳显著特征,提高效率。

Patent Agency Ranking