一种用于结构化数据的半监督学习的方法

    公开(公告)号:CN109977094B

    公开(公告)日:2021-02-19

    申请号:CN201910091581.7

    申请日:2019-01-30

    Applicant: 中南大学

    Abstract: 本发明公开一种用于结构化数据的半监督学习的方法,构建用于结构化数据的半监督对抗神经网络模型,对原始结构化数据X预处理,将原始数据X的特征划分成类别型特征子集xCT和数值型特征子集xNL;模型判别器的原始输入为{x1,xu,xg},其中x1,xu分别是有标记和无标记样本,xg为生成器生成的样本,x1,xu包含的特征集相同,将样本的类别特征子集xCT输入Embedding layer,得到对应的稠密嵌入向量E(xCT),再与数值型特征子集xNL组合得到具有新特征集的样本E(xCT)+xNL,应用BN技术得到归一化的包含新特征集的样本,将新样本输入判别器进行训练,生成样本xg则直接作为判别器的输入;生成器,由三层全连接网络组成并且每一层的输出都应用BN防止梯度弥散,噪声作为输出,得到拥有特征E(xCT)+xNL的生产样本xg。

    基于统计频率和关联规则的异常学生挖掘方法

    公开(公告)号:CN107578181A

    公开(公告)日:2018-01-12

    申请号:CN201710834420.3

    申请日:2017-09-15

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于统计频率和关联规则的异常学生挖掘方法,包括构建学生-成绩矩阵;得到学生-课程异常矩阵;划分出全局型异常学生;获得学生各课程成绩之间的关联关系;对所有学生的异常科目进行分组合并;划分出偏科型异常学生;对学生进行分类,从而挖掘得到最终的异常学生。本发明提出了一种新的算法,通过统计频率计算学生全部已修科目的考试成绩异常总量,设置合理阈值划分全局型异常学生,有效的降低噪声影响;通过关联规则表达课程的相关性,计算学生出现问题的科目的关联规则信息熵,从而描述学生的偏科程度,能够更加准确的划分出偏科型异常学生。

    基于数据挖掘的学生贫困状态预测方法

    公开(公告)号:CN106951568A

    公开(公告)日:2017-07-14

    申请号:CN201710223971.6

    申请日:2017-04-07

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于数据挖掘的学生贫困状态预测方法,包括获取所有学生在校的学习数据、消费数据信息和贫困生与非贫困生的比例;将学生数据信息分为训练集合和测试集合,且每个集合中贫困生和非贫困生的比例与已确定的比例一致;对训练集合中的数据采用过采样算法进行数据平衡化;采用随机森林算法对训练集合进行模型训练,以测试集合对模型进行测试和评估,得到性能最优的学生贫困状态预测模型;采用学生贫困状态预测模型对学生的贫困状态进行预测。本发明方法通过学生在校的客观数据和表现对学生的贫困状态进行综合考量和预测,从而避免在学生贫困状态评定中出现的主观性和随机性,而且本发明方法科学实用,能够快速进行算法解算和数据分析。

    N-Gram模型的建立方法
    4.
    发明公开

    公开(公告)号:CN108021712A

    公开(公告)日:2018-05-11

    申请号:CN201711464797.0

    申请日:2017-12-28

    Applicant: 中南大学

    Abstract: 本发明公开了一种N‑Gram模型的建立方法,包括获取原始语料;对原始语料进行分词;对分词结果进行单词统计;对N‑Gram模型进行平滑处理,得到最终的N‑Gram模型。本发明方法通过建立Witten‑Bell平滑对N‑Gram模型进行平滑,同时采用分布式平台计算建模过程中的参数,并采用Hbase数据库对计算的参数进行存储和读取,因此本发明方法在应对海量训练语料的情况下,其拓展性非常好,而且方法的建模速度和查询速度均较快。

    基于数据挖掘的在校学生成绩预警方法

    公开(公告)号:CN106778054A

    公开(公告)日:2017-05-31

    申请号:CN201710224459.3

    申请日:2017-04-07

    Applicant: 中南大学

    CPC classification number: G16Z99/00

    Abstract: 本发明公开了一种基于数据挖掘的在线学生成绩预警方法,包括获取学校已毕业学生的成绩数据并分等;采用Apriori算法挖掘成绩数据中所有符合最小支持度计数值的频繁项集;利用频繁项集得到所有强关联规则;对在校学生的所有成绩运用强关联规则进行数据运算,得到成绩的预测和预警结果。本发明通过获取往届学生的学习成绩数据,并对获取的成绩数据进行数据挖掘和关联分析,从而得到各科成绩之间的强关联规则,并根据获得的各科成绩之间的强关联规则对在校学生的成绩进行预测和预警,因此本发明方法从客观的数据出发,能够及时和实时的对学生的成绩进行预测和预警,而且客观,合理,科学,计算速度快,精度高。

    N-Gram模型的建立方法
    6.
    发明授权

    公开(公告)号:CN108021712B

    公开(公告)日:2021-12-31

    申请号:CN201711464797.0

    申请日:2017-12-28

    Applicant: 中南大学

    Abstract: 本发明公开了一种N‑Gram模型的建立方法,包括获取原始语料;对原始语料进行分词;对分词结果进行单词统计;对N‑Gram模型进行平滑处理,得到最终的N‑Gram模型。本发明方法通过建立Witten‑Bell平滑对N‑Gram模型进行平滑,同时采用分布式平台计算建模过程中的参数,并采用Hbase数据库对计算的参数进行存储和读取,因此本发明方法在应对海量训练语料的情况下,其拓展性非常好,而且方法的建模速度和查询速度均较快。

    一种用于结构化数据的半监督学习的方法

    公开(公告)号:CN109977094A

    公开(公告)日:2019-07-05

    申请号:CN201910091581.7

    申请日:2019-01-30

    Applicant: 中南大学

    Abstract: 本发明公开一种用于结构化数据的半监督学习的方法,构建用于结构化数据的半监督对抗神经网络模型,对原始结构化数据X预处理,将原始数据X的特征划分成类别型特征子集xCT和数值型特征子集xNL;模型判别器的原始输入为{x1,xu,xg},其中x1,xu分别是有标记和无标记样本,xg为生成器生成的样本,x1,xu包含的特征集相同,将样本的类别特征子集xCT输入Embedding layer,得到对应的稠密嵌入向量E(xCT),再与数值型特征子集xNL组合得到具有新特征集的样本E(xCT)+xNL,应用BN技术得到归一化的包含新特征集的样本,将新样本输入判别器进行训练,生成样本xg则直接作为判别器的输入;生成器,由三层全连接网络组成并且每一层的输出都应用BN防止梯度弥散,噪声作为输出,得到拥有特征E(xCT)+xNL的生产样本xg。

    一种基于WGAN-GP和过采样的不平衡学习方法

    公开(公告)号:CN109816044A

    公开(公告)日:2019-05-28

    申请号:CN201910110272.X

    申请日:2019-02-11

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于WGAN-GP和过采样的不平衡学习方法,包括:生成器网络,由三层全连接网络组成并且每一层的输出都应用了Batch Normalization(BN)归一化去防止梯度弥散,所述生成器网络由于最终需要产生特定标签的样本,将高斯随机噪声z和样本标签yi∈{0,1}组合成新的向量作为输入,输出样本标签yi对应的生成样本x;同样由三层全连接网络组成的判别器网络,所述判别器网络的输入为样本标签yi以及真实样本或生成样本,输出结果为判断样本是真实的或者为被生成的。本发明能大大减少噪声样本的产生,优化生成少数样本的质量,最终提升原始不平衡数据集上训练的分类器的泛化性能。

Patent Agency Ranking