一种基于信息熵过采样的软件缺陷预测方法及系统

    公开(公告)号:CN114490386B

    公开(公告)日:2025-02-14

    申请号:CN202210093923.0

    申请日:2022-01-26

    Applicant: 安徽大学

    Abstract: 本发明提供一种基于信息熵过采样的软件缺陷预测方法及系统,方法包括:获取软件缺陷数据集;将数据集划分为训练集测试集,并计算训练集中多数类样本和少数类样本的类确定性熵;根据类确定性熵将多数类样本和少数类样本划分为安全样本、关键样本、危险样本,并选择少数类关键样本作为种子样本;清除多数类危险样本;对少数类关键样本局部邻域约束过采样;采用新的平衡训练集训练软件缺陷预测模型,并对测试集进行测试。本发明解决了现有技术中存在的类不平衡及类重叠问题对分类模型产生不利影响,导致软件缺陷预测效果较差的技术问题。

    一种基于信息熵过采样的软件缺陷预测方法及系统

    公开(公告)号:CN114490386A

    公开(公告)日:2022-05-13

    申请号:CN202210093923.0

    申请日:2022-01-26

    Applicant: 安徽大学

    Abstract: 本发明提供一种基于信息熵过采样的软件缺陷预测方法及系统,方法包括:获取软件缺陷数据集;将数据集划分为训练集测试集,并计算训练集中多数类样本和少数类样本的类确定性熵;根据类确定性熵将多数类样本和少数类样本划分为安全样本、关键样本、危险样本,并选择少数类关键样本作为种子样本;清除多数类危险样本;对少数类关键样本局部邻域约束过采样;采用新的平衡训练集训练软件缺陷预测模型,并对测试集进行测试。本发明解决了现有技术中存在的类不平衡及类重叠问题对分类模型产生不利影响,导致软件缺陷预测效果较差的技术问题。

Patent Agency Ranking