-
公开(公告)号:CN100412888C
公开(公告)日:2008-08-20
申请号:CN200610073172.7
申请日:2006-04-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开一种基于内容的敏感网页识别方法,包括步骤:在给定网页的统一资源定位器的条件下,获取该网页的源码,数据分流和预处理,获取文本信息和有效图像信息;利用连续敏感文本分类器对文本信息处理,如果分类器输出结果为敏感,则处理完毕。否则利用离散敏感文本分类器对文本信息处理,如果分类器输出结果大于事先给定阈值,识别结果为敏感,则处理完毕。否则利用图像分类器对图像识别,识别结果与离散分类器输出结果融合。本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的方案解决现有技术的问题,本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合,提高对敏感网页的识别率。