-
公开(公告)号:CN114579631A
公开(公告)日:2022-06-03
申请号:CN202210096195.9
申请日:2022-01-26
Applicant: 苏州大学
IPC: G06F16/2458 , G06F17/18 , G06Q10/04 , G06Q50/26 , G06N3/08
Abstract: 本发明涉及一种基于概率加权过采样的社区矫正率预测系统,包括数据输入模块输入社区矫正原始数据集合,其包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;过采样模块获得剔除噪音样本点的主要矫正社区数据集合,基于主要矫正社区数据集合获得主要矫正社区样本点集合;将主要社区矫正样本点集合和矫正社区原始数据集合进行求和得社区矫正数据集合,数据训练模块利用社区矫正数据集合进行训练得社区矫正率预测模型;社区矫正率预测模块接收待预测的社区矫正样本,并将其输入至社区矫正率预测模型,输出预测结果。本发明能够达到数据样本数量的平衡,克服因数据样本数量不平衡而导致的检测率低的问题。
-
公开(公告)号:CN115293887A
公开(公告)日:2022-11-04
申请号:CN202210989033.8
申请日:2022-08-17
Applicant: 苏州大学
IPC: G06Q40/02 , G06F16/215 , G06K9/62
Abstract: 本发明公开了基于样本重要性过采样的信用风险预测方法,包括以下步骤:S1、对信用数据集合进行预处理;S2、对不良信用数据样本进行去噪;S3、划分不良信用数据样本的概率区间并计算不良信用数据样本被选取作为样本生成点的选择概率;S4、依次根据选择概率选择样本生成点,并根据概率区间来选择不同的样本生成方式,生成新的不良信用数据样本;S5、将新的不良信用数据样本与原信用数据集合中的样本并集作为输入数据训练信用风险预测模型;S6、采用训练后的信用风险预测模型对未知信用数据样本进行风险预测。本发明通过基于样本重要性过采样方法,有效平衡数据数量,提高风险预测准确性。
-
公开(公告)号:CN114254997B
公开(公告)日:2023-03-10
申请号:CN202111488827.8
申请日:2021-12-07
Applicant: 苏州大学
IPC: G06Q10/107 , G06F18/2413 , G06F18/22 , G06F17/18
Abstract: 本发明涉及一种基于密度自适应过采样的垃圾邮件分类系统,包括数据输入模块用于输入原始邮件数据集合,其中原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合;过采样模块用于剔除垃圾邮件数据集合中的噪音样本点,使噪音样本点不参与过采样的过程,获得第一垃圾邮件数据集合,计算第一垃圾邮件数据集合中的每个样本点的密度,生成第二垃圾邮件数据集合;数据训练模块用于获得最终的邮件数据集合,利用其对神经网络模型进行训练,获得邮件识别模型;邮件识别模块用于将待识别的邮件数据输入至邮件识别模型,并输出识别结果。本发明能够达到数据样本数量的平衡,克服现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。
-
公开(公告)号:CN116401153A
公开(公告)日:2023-07-07
申请号:CN202310267759.5
申请日:2023-03-20
Applicant: 苏州大学
IPC: G06F11/36 , G06F18/2321 , G06F18/25
Abstract: 本发明涉及一种基于聚类融合过采样的软件缺陷预测方法,包括:将软件数据集合划分为无缺陷数据集合与有缺陷数据集合;对有缺陷数据集合中样本点聚类,获取无噪声有缺陷子簇集合;将无噪声有缺陷子簇集合中属于同一方向的子簇合并;计算无噪声有缺陷子簇集合中每个子簇的子簇选择概率,计算有缺陷子簇中每个样本点的样本选择概率;根据子簇选择概率,选择有缺陷子簇,根据样本选择概率,从所选有缺陷子簇中选择基点样本点;根据基本样本点的类型选择候选点,对所选有缺陷子簇进行插值,直至有缺陷数据集合与无缺陷数据集合中样本数相同,获取平衡软件数据集合来训练软件缺陷预测模型,利用训练好的软件缺陷预测模型对待检测软件数据进行缺陷预测。
-
公开(公告)号:CN114579631B
公开(公告)日:2023-04-07
申请号:CN202210096195.9
申请日:2022-01-26
Applicant: 苏州大学
IPC: G06F16/2458 , G06F17/18 , G06Q10/04 , G06Q50/26 , G06N3/08
Abstract: 本发明涉及一种基于概率加权过采样的社区矫正率预测系统,包括数据输入模块输入社区矫正原始数据集合,其包括次要矫正社区原始数据集合和主要矫正社区原始数据集合;过采样模块获得剔除噪音样本点的主要矫正社区数据集合,基于主要矫正社区数据集合获得主要矫正社区样本点集合;将主要社区矫正样本点集合和矫正社区原始数据集合进行求和得社区矫正数据集合,数据训练模块利用社区矫正数据集合进行训练得社区矫正率预测模型;社区矫正率预测模块接收待预测的社区矫正样本,并将其输入至社区矫正率预测模型,输出预测结果。本发明能够达到数据样本数量的平衡,克服因数据样本数量不平衡而导致的检测率低的问题。
-
公开(公告)号:CN114254997A
公开(公告)日:2022-03-29
申请号:CN202111488827.8
申请日:2021-12-07
Applicant: 苏州大学
Abstract: 本发明涉及一种基于密度自适应过采样的垃圾邮件分类系统,包括数据输入模块用于输入原始邮件数据集合,其中原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合;过采样模块用于剔除垃圾邮件数据集合中的噪音样本点,使噪音样本点不参与过采样的过程,获得第一垃圾邮件数据集合,计算第一垃圾邮件数据集合中的每个样本点的密度,生成第二垃圾邮件数据集合;数据训练模块用于获得最终的邮件数据集合,利用其对神经网络模型进行训练,获得邮件识别模型;邮件识别模块用于将待识别的邮件数据输入至邮件识别模型,并输出识别结果。本发明能够达到数据样本数量的平衡,克服现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。
-
-
-
-
-