-
公开(公告)号:CN113239199B
公开(公告)日:2022-09-23
申请号:CN202110541128.9
申请日:2021-05-18
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于多方数据集的信用分类方法,属于数据挖掘领域。本发明方法包括:输入信用评估相关的多方数据集;对多个数据集数据进行数据预处理,解决原始数据集中存在的多种问题,并得到标准输入数据集;利用机器学习中的聚类算法与数据生成算法,将多个数据集进行对齐,得到对齐后的新数据集;将文本类型特征与数值类型特征分别输入到两个模型中单独训练;最后结合两个模型中的训练结果,使用逻辑回归方法计算最终两个模型权重,并输出最终的评估结果。本发明通过引入数据对齐方法与信用评估算法解决多个信用数据集中样本数量无法对齐的问题,提高了可被用于训练的样本数量,减少了由于训练样本不足带来的机器学习模型分类无法收敛的问题。
-
公开(公告)号:CN113239199A
公开(公告)日:2021-08-10
申请号:CN202110541128.9
申请日:2021-05-18
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于多方数据集的信用分类方法,属于数据挖掘领域。本发明方法包括:输入信用评估相关的多方数据集;对多个数据集数据进行数据预处理,解决原始数据集中存在的多种问题,并得到标准输入数据集;利用机器学习中的聚类算法与数据生成算法,将多个数据集进行对齐,得到对齐后的新数据集;将文本类型特征与数值类型特征分别输入到两个模型中单独训练;最后结合两个模型中的训练结果,使用逻辑回归方法计算最终两个模型权重,并输出最终的评估结果。本发明通过引入数据对齐方法与信用评估算法解决多个信用数据集中样本数量无法对齐的问题,提高了可被用于训练的样本数量,减少了由于训练样本不足带来的机器学习模型分类无法收敛的问题。
-