符合泊松分布的有序多分类变量的数据规格化方法

    公开(公告)号:CN108536794A

    公开(公告)日:2018-09-14

    申请号:CN201810281245.4

    申请日:2018-04-02

    Abstract: 本发明的符合泊松分布的有序多分类变量的数据规格化方法,设数据样本的属性A符合泊松分布,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,样本中属性A的总数量记为N,属性A中类别k下的数量记为nk;有序多分类变量的属性A规格化后的数据值v′k通过公式(1)进行求取:其中,1≤k≤m, 为属性A中m个类别原始值的均值,其通过如下公式进行求取。本发明的数据规格化方法,使得处理后的变量可应用在如神经网络、最近邻分类、聚类等基于对象距离的挖掘算法中,有益效果显著,适于应用推广。

Patent Agency Ranking