发明授权
CN101345720B 基于部分匹配预测的垃圾邮件分类方法
失效 - 权利终止
- 专利标题: 基于部分匹配预测的垃圾邮件分类方法
- 专利标题(英): Junk mail classification method based on partial match estimation
-
申请号: CN200810120281.9申请日: 2008-08-15
-
公开(公告)号: CN101345720B公开(公告)日: 2011-04-13
- 发明人: 任沁清 , 彭鹏 , 陆冠中 , 徐从富
- 申请人: 浙江大学
- 申请人地址: 浙江省杭州市浙大路38号
- 专利权人: 浙江大学
- 当前专利权人: 浙江大学
- 当前专利权人地址: 浙江省杭州市浙大路38号
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 张法高
- 主分类号: H04L12/58
- IPC分类号: H04L12/58 ; G06K9/66
摘要:
本发明公开了一种基于部分匹配预测的垃圾邮件过滤方法。包括如下步骤:1)将新邮件变换成为001~127ASC II值对应字符组成的一个字符串;2)取出以往垃圾邮件训练集、正常邮件训练集、垃圾邮件预测集和正常邮件预测集;3)将正常邮件训练集和垃圾邮件训练集分别经过部分匹配预测算法,训练成垃圾邮件模型和正常邮件模型;4)将新邮件变换后的字符串分别和垃圾邮件模型以及正常邮件进行交叉熵运算,得到两个交叉墒值;5)获得最小交叉熵的模型决定了新邮件是否是垃圾邮件或者正常邮件的分类结果;6)新邮件分类之后,将新邮件加入预测集,进行增量学习,得到新的模型。本发明有效避免将正常邮件误作垃圾邮件的情况发生。
公开/授权文献
- CN101345720A 基于部分匹配预测的垃圾邮件分类方法 公开/授权日:2009-01-14