-
公开(公告)号:CN107679073A
公开(公告)日:2018-02-09
申请号:CN201710742190.8
申请日:2017-08-25
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法。该方法包括:对Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;对网页的特征分词进行降维处理,生成一维的指纹信息;根据网页的指纹信息构建指纹库;对在线的Gzip压缩网页采用同样方法生成一维的指纹信息,并与Gzip压缩网页的指纹库中的指纹进行相似性比较,根据设定的相似度阈值判定是否相似。采用本发明的方法进行压缩网页的相似性匹配,能够有效地提高压缩网页的相似性匹配的效率。