-
公开(公告)号:CN113469251A
公开(公告)日:2021-10-01
申请号:CN202110748670.1
申请日:2021-07-02
Applicant: 南京邮电大学
IPC: G06K9/62
Abstract: 本发明公开了一种不平衡数据的分类方法,属于机器学习技术领域,包括主动学习方法和过采样方法,不平衡数据包括有标记数据和无标记数据,具体为:对有标记数据进行预处理,通过计算距离特征得到初始训练集;对初始训练集进行训练,得到初始分类器;利用初始分类器计算无标记数据的不确定度;根据不确定度对无标记数据进行排序,并交由人工进行标记,以得到已标记数据集;对已标记数据集进行概率过采样,以得到平衡数据集;对平衡数据集进行训练得到分类器,用以对不平衡数据进行分类。本发明的不平衡数据的分类方法通过将主动学习和过采样方法相结合,减少了参加训练样本数量;同时,保证分类器对多数类和少数类的数据都具有较高的分类精度。
-
公开(公告)号:CN113469251B
公开(公告)日:2024-07-26
申请号:CN202110748670.1
申请日:2021-07-02
Applicant: 南京邮电大学
IPC: G06F18/2415 , G06F18/214
Abstract: 本发明公开了一种不平衡数据的分类方法,属于机器学习技术领域,包括主动学习方法和过采样方法,不平衡数据包括有标记数据和无标记数据,具体为:对有标记数据进行预处理,通过计算距离特征得到初始训练集;对初始训练集进行训练,得到初始分类器;利用初始分类器计算无标记数据的不确定度;根据不确定度对无标记数据进行排序,并交由人工进行标记,以得到已标记数据集;对已标记数据集进行概率过采样,以得到平衡数据集;对平衡数据集进行训练得到分类器,用以对不平衡数据进行分类。本发明的不平衡数据的分类方法通过将主动学习和过采样方法相结合,减少了参加训练样本数量;同时,保证分类器对多数类和少数类的数据都具有较高的分类精度。
-