基于动态贝叶斯模型的网页垃圾检测方法

    公开(公告)号:CN102243659A

    公开(公告)日:2011-11-16

    申请号:CN201110200276.0

    申请日:2011-07-18

    Abstract: 基于动态贝叶斯模型的网页垃圾检测方法涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,搜索引擎查询日志记录了用户与搜索引擎的交互信息。它的内容包括查询词、搜索引擎返回的网址、用户点击的网址以及时间戳等信息。日志中被点击的网址及其点击顺序等信息反映了用户的喜好。本发明为日志点击行为建模,挖掘搜索引擎返回列表序列中网址之间的点击因果关系,从用户的角度说明了哪些网址是用户认为和查询词相关联的,得到从用户角度出发的网页与查询的相关性,它是一种隐含的回馈,从而使作弊网页的排名位置靠后,而相关网页的排名则靠前了。

    利用改进的高斯混合模型分类器检测图像垃圾邮件的方法

    公开(公告)号:CN102129568A

    公开(公告)日:2011-07-20

    申请号:CN201110112414.X

    申请日:2011-04-29

    Abstract: 利用改进的高斯混合模型分类器检测垃圾邮件的方法,利用健壮特征的加速提取算法来提取图片中垃圾信息的不变区域特征,对不变区域特征进行高斯混合模型拟合,使用期望最大化方法来进行权重、均值以及协方差矩阵的评估,具体为:对待检测数据集的图片进行标签,分为垃圾图片与正常图片;采用健壮特征的加速提取算法提取所有数据集的局部不变特征的向量;采用高斯混合模型对局部不变特征进行密度函数拟合,得到所有图片的均值与协方差矩阵;改进均值聚类算法,使其适用于对上一步骤中得出的特殊特征向量进行聚类,使用交叉熵作为分布之间相似度的衡量指标,实现基于高斯混合模型的均值聚类算法;利用基于高斯混合模型的均值聚类算法来构建分类器。

    基于陆地移动距离的相似度检测图像型垃圾邮件的方法

    公开(公告)号:CN102103700A

    公开(公告)日:2011-06-22

    申请号:CN201110020901.3

    申请日:2011-01-18

    Abstract: 基于陆地移动距离的相似度检测图像型垃圾邮件的方法,利用了尺度不变特征转换算法来提取图片中垃圾信息的不变区域特征,使用陆地移动距离计算待测图片与垃圾邮件特征库中图片的相似度,从而检测出图像型垃圾邮件。本发明提供了一种使用图片的局部不变特征的基于陆地移动距离的相似度检测图像型垃圾邮件的方法。目前现有的利用相似度检测图像型垃圾邮件技术主要是使用欧式距离,而欧式距离无法处理结构大小可变的特征,需要先对特征进行聚类规范化特征,因此影响了检测速度。本发明利用陆地移动距离直接处理结构大小可变的局部不变特征,大大提高了图像型垃圾邮件的检测速度,同时保证了高精确度和低误判率。

    利用图片文字与局部不变特征检测图像垃圾邮件的方法

    公开(公告)号:CN101887523A

    公开(公告)日:2010-11-17

    申请号:CN201010204722.0

    申请日:2010-06-21

    Abstract: 利用图片的局部不变特征检测图像型垃圾邮件的方法,利用了尺度不变特征转换算法来提取图片中垃圾信息的不变区域特征,提取嵌入图片中文字来对图片进行分类,从而形成图片的两种特征结合的特征向量库。经过实验能够提高垃圾邮件的召回率,节省程序运算时间和空间。用这种方法来提取图片中的不变区域特征,从而生成图片的特征向量,使用支持向量机分类器来训练与测试。本发明提出的利用嵌入图片中的文本信息,使用图形文字识别技术挖掘出图片中的文本字符串,将字符串作为图片的特征,使用贝叶斯分类器来训练与测试。每张图片的特征向量是由图片的局部不变特征与文本字符串构成的,使用堆栈方法综合两种分类器进行分类,来检测图像型垃圾邮件的实现方法。

    一种基于相似性的半监督学习垃圾网页检测方法

    公开(公告)号:CN101814093A

    公开(公告)日:2010-08-25

    申请号:CN201010139921.8

    申请日:2010-04-02

    Abstract: 本发明的目的是设计基于相似性的半监督学习垃圾网页检测方法,解决利用网页链接关系进行半监督学习出现的问题。该方法根据网页间的相似性建立一个隐含的“链接”关系图。步骤1:从网页中提取基于内容和链接的特征步骤2)对步骤1)所提取的特征用主成分分析方法进行特征提取;步骤3)根据网页间的相似性建立隐含的“链接”关系图;步骤4)在“链接”关系图上建立高斯随机域模型,利用调和函数进行半监督学习,步骤5)将步骤4)的模型与其它分类器的分类结果结合,提高分类效果,在关系图中,网页间的链接根据相似性赋予权重,然后建立高斯随机域模型,使用调和函数进行半监督学习,提高了半监督学习的能力。

Patent Agency Ranking