基于伪负样本的数据平衡方法及提高数据分类性能的方法

    公开(公告)号:CN109272056A

    公开(公告)日:2019-01-25

    申请号:CN201811280097.0

    申请日:2018-10-30

    Abstract: 本发明公开了一种基于伪负样本的数据平衡方法及提高数据分类性能的方法,包括步骤:步骤1:正负样本分离,得到正样本集和负样本集;步骤2:计算得到负样本皮尔逊相关系数集合;步骤3:将伪负样本集和被挑选样本集初始化;步骤4:使用最大相关-最小冗余方法计算权重,得到权重集合;步骤5:挑选出最大权重,更新伪负样本集和被挑选样本集;步骤6:重复步骤4和步骤5,直到挑选出伪负样本集;步骤7:将挑选出的伪负样本集并入正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集;本发明首次提出并定义了伪负样本的概念,提出的算法可提高数据分类准确性,进而提高分类器性能,特别是在处理不平衡的生物信息数据方面优势明显。

    一种心理量表的数据预处理方法

    公开(公告)号:CN108172298A

    公开(公告)日:2018-06-15

    申请号:CN201810086348.5

    申请日:2018-01-30

    Abstract: 本发明公开了一种心理量表的数据预处理方法,其包括以下步骤:S1、从至少两个选项中获取待保留的选项和待删除的选项;获取至少两个已知患病信息的心理量表样本;S2、对待删除的选项进行合并约简至待保留的选项中,得到基于保留选项集的数据集合,实现对心理量表选项的预处理;根据已知患病信息的心理量表样本对心理量表题目进行属性约简,删除模糊题目,实现对心理量表题目的预处理。本发明能够降低心理测量数据中选项的模糊度,并解决属性较多而样本较少时无法约简属性的问题,从而有效挖掘心理测量数据,提取有价值信息。

Patent Agency Ranking