-
公开(公告)号:CN107180246A
公开(公告)日:2017-09-19
申请号:CN201710247904.8
申请日:2017-04-17
Applicant: 南京邮电大学
CPC classification number: G06K9/6296 , G06K9/6278 , G06Q10/04 , H04L41/0631 , H04L65/80
Abstract: 本发明公开了一种基于混合模型的IPTV用户报障数据合成方法,该方法用于解决现有少数类数据合成方法中对少数样本不加以分析处理,直接生成新样本而造成的后续分类预测模型性能下降的缺陷,本发明首先从IPTV机顶盒采集到的数据中抽取用户报障数据集,用混合模型表示该数据集的分布,而后完成模型参数的初始化和参数估计,最后利用建立好的混合模型,生成新的IPTV用户报障数据。采用本发明的方法,能够更好地把握具有不平衡特性的用户报障数据特性,所产生的新的IPTV用户报障数据更加具有代表性和分类区分度,并且能够更好地提升后续具有不平衡特性的用户报障分类、预测的性能。
-
公开(公告)号:CN107330477A
公开(公告)日:2017-11-07
申请号:CN201710605177.8
申请日:2017-07-24
Applicant: 南京邮电大学
IPC: G06K9/62
CPC classification number: G06K9/6218 , G06K9/6223
Abstract: 本发明公开了一种针对非均衡数据分类的改进SMOTE再抽样方法。该方法首先用K-Means方法对样本集中的少数类样本进行聚类,并删除聚类后每个类簇质心距离多数类样本最近的噪声样本类,而后在每一个类簇中利用KNN方法将类簇分为三类并删除噪声样本类。最后在每一个类簇中输入一个随机数并根据随机数与类簇中样本集类型的占比关系选择某个样本集进行SMOTE方法过抽样。本发明提出的改进型K-Means-SMOTE方法相比传统SMOTE方法在预测网路电视机顶盒用户的投诉模型中效果显著提高。
-
公开(公告)号:CN106372655A
公开(公告)日:2017-02-01
申请号:CN201610753263.9
申请日:2016-08-26
Applicant: 南京邮电大学
IPC: G06K9/62
CPC classification number: G06K9/6276
Abstract: 本发明公开了一种非平衡IPTV数据集上的少数类样本的合成方法,用于解决现有少数类数据合成方法中对少数样本不加以分析处理直接生成新样本而造成的后续分类预测模型性能下降的缺陷,本发明的实施流程为:首先找出少数类样本的邻居集合,根据邻居样本所属类别的比重将其分为噪声集、安全集和危险集三类,对噪声集中的样本不做处理,对安全集和危险集计算其比率并计算相关概率,以此概率选择安全集或危险集,基于所选集合中的样本产生新的少数类样本;采用本发明的方法,可以去除对分类其负面作用的少数类样本效应,并且增加分类面附近的少数类样本的效用,所获得的新的少数类样本可以更好地提升后续分类、预测模型的性能。
-
-