一种搜索引擎作弊检测的优化方法

    公开(公告)号:CN101493819B

    公开(公告)日:2011-09-14

    申请号:CN200810056726.1

    申请日:2008-01-24

    Abstract: 本发明公开了一种搜索引擎作弊检测的优化方法,该方法包括:步骤S1:预处理所有网页和超链接,进行特征提取,针对提取的特征进行初步作弊检测;步骤S2:在初步作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递特征和近邻特征;步骤S3:在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。利用本发明,解决了现有技术中启发式作弊检测方法的不稳定性问题,并最大程度上优化了搜索引擎作弊检测的性能。

    一种基于情景信息的个性化资源信息的推荐方法

    公开(公告)号:CN101751448B

    公开(公告)日:2012-06-27

    申请号:CN200910089587.7

    申请日:2009-07-22

    Abstract: 本发明公开一种基于情景信息的个性化资源信息的推荐方法,该方法:对协作式标注系统网页进行预处理,根据特定用户抽取其所有的标注行为的信息,包括标注的资源信息、使用的标签信息,以及标注的时间信息,将用户所有的标注行为的信息存储于数据库;根据数据库中用户对资源使用的标签信息以及标注资源的时间信息,生成表达用户喜好的评分数据;基于生成的用户喜好的评分数据计算用户之间的相似度,以确定具有相似兴趣的用户近邻;根据用户近邻的喜好信息向该用户推荐其未标注过的资源,完成协同过滤个性化资源的推荐。实验表明通过集成情景信息可以为用户提供更好的个性化推荐服务。

    一种基于小样本集的搜索引擎作弊检测方法

    公开(公告)号:CN101350011B

    公开(公告)日:2011-09-07

    申请号:CN200710119196.6

    申请日:2007-07-18

    Abstract: 本发明涉及互联网信息检索,公开一种基于小样本集的互联网作弊检测方法,以打击日益严峻的搜索引擎作弊行为,本发明针对检测样本收集成本高这一难题,利用基于分类器的自学习和基于互联网拓扑结构的链接学习过程的迭代执行,不断扩充训练集,以实现在小样本集下对搜索引擎作弊进行检测,并在识别过程中采用集成的降采样策略,充分利用了互联网上广泛存在的高信誉网站所包含的信息。最后进行沿互联网拓扑结构的基于预测作弊度的标号传递,以实现检测结果优化。利用实验表明这一方法能有效地对作弊行为进行检测。

    实现观点搜索引擎排序的方法

    公开(公告)号:CN101515269B

    公开(公告)日:2011-08-31

    申请号:CN200810057879.8

    申请日:2008-02-20

    Abstract: 本发明公开了一种实现观点搜索引擎排序的方法,包括:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息;使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构;对转换以后的用户评论信息建立倒排序索引;对建立倒排序索引的用户评论信息进行排序;对用户评论信息进行统计分析及可视化。利用本发明,有效地融合了用户评论信息的品质因素,并充分考虑了时间维度信息,能够为潜在用户提供更准确、更相关、更及时的观点信息服务。

Patent Agency Ranking