垃圾网页的识别方法及系统

    公开(公告)号:CN103064984B

    公开(公告)日:2016-08-10

    申请号:CN201310029963.X

    申请日:2013-01-25

    Abstract: 本发明提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询?结果集合;从查询?结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询?结果集合和垃圾网页样例集合计算查询?结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。

    搜索引擎的性能评价方法

    公开(公告)号:CN102156746A

    公开(公告)日:2011-08-17

    申请号:CN201110098378.6

    申请日:2011-04-19

    Abstract: 本发明提出一种搜索引擎的性能评价方法,包括以下步骤:对用户日志进行预处理,并从所述用户日志中获取待评价的查询集合;针对所述查询集合,在所述用户日志中提取相应的查询分类特征;根据所述查询分类特征,将所述查询集合分类成导航类查询集合和信息事务类查询集合;获取所述分类后的查询集合的用户行为特征;以及根据所述用户行为特征,分别对所述导航类查询集合和信息事务类查询集合进行用户满意判定。本发明的搜索引擎的性能评价方法的模型结构和参数简单,算法复杂度低,数据全面客观,评价真实可靠。

    一种获取同义词的方法及装置

    公开(公告)号:CN101576916B

    公开(公告)日:2011-01-05

    申请号:CN200910087076.1

    申请日:2009-06-18

    Abstract: 本发明公开了一种获取同义词的方法及装置,属于计算机领域。所述方法包括:创建词与结果地址的匹配对的集合;将所述集合中的每个词作为待查找的词,根据所述待查找的词,从所述集合中查找匹配的结果地址;根据所述结果地址,从所述集合中查找与所述结果地址匹配的词,将所述查找到的词作为同义词。所述装置包括:创建模块、第一查找模块和第二查找模块。本发明能够更容易获取同义词,减少人力、物力资源以及提高算法效率。

    一种中文搜索引擎中查询词的拼写校正方法

    公开(公告)号:CN101369285B

    公开(公告)日:2010-06-02

    申请号:CN200810224323.3

    申请日:2008-10-17

    Abstract: 本发明公开了一种中文搜索引擎中查询词的拼写校正方法,属于网络信息处理领域。该方法包括:判断输入中文搜索引擎的英文查询词是否为正确的英文查询词;对非正确的英文查询词,生成所述非正确的英文查询词的候选形式,按照预设规则将所述候选形式列入候选集合;对所述候选集合中的所有候选形式进行评分,将分值最高的候选形式作为校正后的形式返回给用户。本发明通过对错误的查询词的候选形式进行度量,选出分值最高的候选形式作为查询词的校正形式,有效地避免拼写错误对搜索引擎的误导,使得搜索引擎更加智能。

    一种网页推荐方法和装置

    公开(公告)号:CN102054004B

    公开(公告)日:2015-05-06

    申请号:CN200910236869.5

    申请日:2009-11-04

    Abstract: 本发明公开了一种网页推荐方法和装置,属于数据挖掘领域。所述方法包括:获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案,使得用户可以在推荐网页集中查看摘要或点击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得了较好的性能,满足了实际应用中的需要。

    基于锚文本分析的领域术语自动生成方法

    公开(公告)号:CN102169496A

    公开(公告)日:2011-08-31

    申请号:CN201110091312.4

    申请日:2011-04-12

    Abstract: 本发明提出一种基于锚文本分析的领域术语自动生成方法,包括以下步骤:采集用户的浏览日志;对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。本发明能够自动从锚文本中发现和提取领域术语,并且模型结构和参数简单,算法复杂度低,在实验测试数据上取得了较好的性能和领域术语发现效果。

    一种网页推荐方法和装置

    公开(公告)号:CN102054004A

    公开(公告)日:2011-05-11

    申请号:CN200910236869.5

    申请日:2009-11-04

    Abstract: 本发明公开了一种网页推荐方法和装置,属于数据挖掘领域。所述方法包括:获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案,使得用户可以在推荐网页集中查看摘要或点击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得了较好的性能,满足了实际应用中的需要。

    垃圾网页的识别方法及系统

    公开(公告)号:CN103064984A

    公开(公告)日:2013-04-24

    申请号:CN201310029963.X

    申请日:2013-01-25

    Abstract: 本发明提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合;从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。

Patent Agency Ranking