-
公开(公告)号:CN1731401A
公开(公告)日:2006-02-08
申请号:CN200510092983.7
申请日:2005-08-26
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明涉及一种数据挖掘中基于混合互信息的特征选择方法,属于数据处理技术领域,本方法包括:数据表中指定D个属性组成候选属性集合F,设置特征属性集合S为空集;对于F中的任意一个属性fi,计算fi与类别标号属性C的互信息I;从中选择最大化互信息I的属性fi,将其从F中去除,并添加到S中;重复步骤a、b直至符合终止条件:a.对于F中的任意一个属性fi,计算混合互信息HMI;b.选取最大化HMI的属性fi,将其从F中去除,并添加S中;输出选出的特征属性集合S,作为数据挖掘的输入属性。本发明能够更快速、更有效地完成从数据表中选择特征属性的任务,提高数据挖掘的精度和效率。