基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法

    公开(公告)号:CN108647206A

    公开(公告)日:2018-10-12

    申请号:CN201810421422.4

    申请日:2018-05-04

    Abstract: 本发明请求保护一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,首先使用分词器对中文垃圾邮件数据集进行分词、去停用词等预处理;其次采用Word2vec模型获取词向量,通过对词向量求和取平均值获得中文垃圾邮件的文本向量;然后在粒子群算法中引入混沌思想来训练卷积神经网络的网络参数;基于混沌粒子群优化卷积神经网络建立中文垃圾邮件分类模型;最后采用测试集通过所建立的模型实现垃圾邮件分类并计算分类正确率。本发明通过混沌粒子群优化算法寻优参数所建立的模型能够快速收敛,具有良好的鲁棒性和稳定性,同时能够提高中文垃圾邮件的分类识别率。

    一种结合RBM和特征选择的列表级排序学习方法

    公开(公告)号:CN106599577A

    公开(公告)日:2017-04-26

    申请号:CN201611147495.6

    申请日:2016-12-13

    CPC classification number: G06N3/02 G16Z99/00

    Abstract: 本发明涉及一种结合RBM和特征选择的列表级排序学习方法,包括步骤:修改传统RBM可见层和隐含层的重构方式,将训练集数据输入多层RBM网络进行预训练;用多层RBM预训练所得参数对多层神经网络的参数进行初始化,得到一个训练集上的较优模型;定义基于交叉熵的损失函数并采用梯度下降法进行优化,通过验证集确定最优排序函数,微调神经网络权值;根据排序函数的系数值,选出权值最大的K个特征,组建新的数据集;根据新的数据集重新训练出最优排序函数,并对测试集进行排序,输出评价标准值。本方法具有训练时间短和排序结果评价标准值高的优点。

    一种基于词频-逆文档与CRF的文本匹配方法

    公开(公告)号:CN108255813B

    公开(公告)日:2021-11-16

    申请号:CN201810062016.3

    申请日:2018-01-23

    Abstract: 本发明请求保护一种基于词频‑逆文档(TF‑IDF)与CRF的语义匹配方法,选用CRF挖掘到的属性特征和TF‑IDF的统计特征来表示文本的权重值,并将权重值赋予文本词向量。该方法解决了TF‑IDF和CRF单纯从统计角度以及需求信息上获取权重却没有考虑到词语之间语义的问题,同时也解决了Word2vec中固定词特征表述不清楚的问题。结合上述方法处理文本匹配问题可显著提高匹配的准确率。

    一种基于词频-逆文档与CRF的文本匹配方法

    公开(公告)号:CN108255813A

    公开(公告)日:2018-07-06

    申请号:CN201810062016.3

    申请日:2018-01-23

    Abstract: 本发明请求保护一种基于词频‑逆文档(TF‑IDF)与CRF的语义匹配方法,选用CRF挖掘到的属性特征和TF‑IDF的统计特征来表示文本的权重值,并将权重值赋予文本词向量。该方法解决了TF‑IDF和CRF单纯从统计角度以及需求信息上获取权重却没有考虑到词语之间语义的问题,同时也解决了Word2vec中固定词特征表述不清楚的问题。结合上述方法处理文本匹配问题可显著提高匹配的准确率。

    基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法

    公开(公告)号:CN108647206B

    公开(公告)日:2021-11-12

    申请号:CN201810421422.4

    申请日:2018-05-04

    Abstract: 本发明请求保护一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,首先使用分词器对中文垃圾邮件数据集进行分词、去停用词等预处理;其次采用Word2vec模型获取词向量,通过对词向量求和取平均值获得中文垃圾邮件的文本向量;然后在粒子群算法中引入混沌思想来训练卷积神经网络的网络参数;基于混沌粒子群优化卷积神经网络建立中文垃圾邮件分类模型;最后采用测试集通过所建立的模型实现垃圾邮件分类并计算分类正确率。本发明通过混沌粒子群优化算法寻优参数所建立的模型能够快速收敛,具有良好的鲁棒性和稳定性,同时能够提高中文垃圾邮件的分类识别率。

Patent Agency Ranking