-
公开(公告)号:CN102096781A
公开(公告)日:2011-06-15
申请号:CN201110020890.9
申请日:2011-01-18
Applicant: 南京邮电大学
Abstract: 一种基于网页关联性的钓鱼检测方法整合了页面之间关联性以及页面的整体性布局特征,主要解决了基于网页关联性和视觉相似性角度进行快速钓鱼网页检测的问题。该方法主要从4个方面研究网页之间的关联性,主要指嵌在网页里的链接关联性、搜索关联性和文本关联性以及网页的整体关联性,把网页看作一个不可分割的整体,对其进行压缩处理,获取主要信息。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测方法,在保证高准确率的同时,显著减小网页检测时间。
-
公开(公告)号:CN102243659B
公开(公告)日:2014-07-16
申请号:CN201110200276.0
申请日:2011-07-18
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 基于动态贝叶斯模型的网页垃圾检测方法涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,搜索引擎查询日志记录了用户与搜索引擎的交互信息。它的内容包括查询词、搜索引擎返回的网址、用户点击的网址以及时间戳等信息。日志中被点击的网址及其点击顺序等信息反映了用户的喜好。本发明为日志点击行为建模,挖掘搜索引擎返回列表序列中网址之间的点击因果关系,从用户的角度说明了哪些网址是用户认为和查询词相关联的,得到从用户角度出发的网页与查询的相关性,它是一种隐含的回馈,从而使作弊网页的排名位置靠后,而相关网页的排名则靠前了。
-
公开(公告)号:CN102629261A
公开(公告)日:2012-08-08
申请号:CN201210051171.8
申请日:2012-03-01
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 本发明是一种由钓鱼网页查找目标网页的方法,首先从网页文本和网页图片中提取关键词,组成该钓鱼网页的词汇签名,然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间的海明距离,根据距离的大小可以选出该钓鱼网页模仿的一个或者多个合法网页,即目标网页。
-
公开(公告)号:CN102629261B
公开(公告)日:2014-07-16
申请号:CN201210051171.8
申请日:2012-03-01
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 本发明是一种由钓鱼网页查找目标网页的方法,首先从网页文本和网页图片中提取关键词,组成该钓鱼网页的词汇签名,然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间的海明距离,根据距离的大小可以选出该钓鱼网页模仿的一个或者多个合法网页,即目标网页。
-
公开(公告)号:CN101826105A
公开(公告)日:2010-09-08
申请号:CN201010139929.4
申请日:2010-04-02
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 基于匈牙利匹配的钓鱼网页检测方法首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果。在方法中还利用曲线下面积值来确定文本特征、图像特征以及全局图像特征的内部权重;利用对数回归分析法确定了网页相似性计算中的文本相似性、图像相似性和全局图像相似性之间的相对权重。本发明提出的基于匈牙利匹配的钓鱼网页检测方法,在精度、召回率上都有了很大提高。
-
公开(公告)号:CN102662959B
公开(公告)日:2014-07-16
申请号:CN201210057731.0
申请日:2012-03-07
Applicant: 南京邮电大学
Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。
-
公开(公告)号:CN101826105B
公开(公告)日:2013-06-05
申请号:CN201010139929.4
申请日:2010-04-02
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 基于匈牙利匹配的钓鱼网页检测方法首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果。在方法中还利用曲线下面积值来确定文本特征、图像特征以及全局图像特征的内部权重;利用对数回归分析法确定了网页相似性计算中的文本相似性、图像相似性和全局图像相似性之间的相对权重。本发明提出的基于匈牙利匹配的钓鱼网页检测方法,在精度、召回率上都有了很大提高。
-
公开(公告)号:CN102096781B
公开(公告)日:2012-11-28
申请号:CN201110020890.9
申请日:2011-01-18
Applicant: 南京邮电大学
Abstract: 一种基于网页关联性的钓鱼检测方法整合了页面之间关联性以及页面的整体性布局特征,主要解决了基于网页关联性和视觉相似性角度进行快速钓鱼网页检测的问题。该方法主要从4个方面研究网页之间的关联性,主要指嵌在网页里的链接关联性、搜索关联性和文本关联性以及网页的整体关联性,把网页看作一个不可分割的整体,对其进行压缩处理,获取主要信息。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测方法,在保证高准确率的同时,显著减小网页检测时间。
-
公开(公告)号:CN102662959A
公开(公告)日:2012-09-12
申请号:CN201210057731.0
申请日:2012-03-07
Applicant: 南京邮电大学
Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。
-
公开(公告)号:CN102243659A
公开(公告)日:2011-11-16
申请号:CN201110200276.0
申请日:2011-07-18
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 基于动态贝叶斯模型的网页垃圾检测方法涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,搜索引擎查询日志记录了用户与搜索引擎的交互信息。它的内容包括查询词、搜索引擎返回的网址、用户点击的网址以及时间戳等信息。日志中被点击的网址及其点击顺序等信息反映了用户的喜好。本发明为日志点击行为建模,挖掘搜索引擎返回列表序列中网址之间的点击因果关系,从用户的角度说明了哪些网址是用户认为和查询词相关联的,得到从用户角度出发的网页与查询的相关性,它是一种隐含的回馈,从而使作弊网页的排名位置靠后,而相关网页的排名则靠前了。
-
-
-
-
-
-
-
-
-