-
公开(公告)号:CN103064984B
公开(公告)日:2016-08-10
申请号:CN201310029963.X
申请日:2013-01-25
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询?结果集合;从查询?结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询?结果集合和垃圾网页样例集合计算查询?结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。
-
公开(公告)号:CN102156746A
公开(公告)日:2011-08-17
申请号:CN201110098378.6
申请日:2011-04-19
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明提出一种搜索引擎的性能评价方法,包括以下步骤:对用户日志进行预处理,并从所述用户日志中获取待评价的查询集合;针对所述查询集合,在所述用户日志中提取相应的查询分类特征;根据所述查询分类特征,将所述查询集合分类成导航类查询集合和信息事务类查询集合;获取所述分类后的查询集合的用户行为特征;以及根据所述用户行为特征,分别对所述导航类查询集合和信息事务类查询集合进行用户满意判定。本发明的搜索引擎的性能评价方法的模型结构和参数简单,算法复杂度低,数据全面客观,评价真实可靠。
-
公开(公告)号:CN101576916B
公开(公告)日:2011-01-05
申请号:CN200910087076.1
申请日:2009-06-18
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种获取同义词的方法及装置,属于计算机领域。所述方法包括:创建词与结果地址的匹配对的集合;将所述集合中的每个词作为待查找的词,根据所述待查找的词,从所述集合中查找匹配的结果地址;根据所述结果地址,从所述集合中查找与所述结果地址匹配的词,将所述查找到的词作为同义词。所述装置包括:创建模块、第一查找模块和第二查找模块。本发明能够更容易获取同义词,减少人力、物力资源以及提高算法效率。
-
公开(公告)号:CN101174273B
公开(公告)日:2010-06-23
申请号:CN200710178687.8
申请日:2007-12-04
Applicant: 清华大学
Abstract: 基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。
-
公开(公告)号:CN101174273A
公开(公告)日:2008-05-07
申请号:CN200710178687.8
申请日:2007-12-04
Applicant: 清华大学
Abstract: 基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。
-
公开(公告)号:CN103412940A
公开(公告)日:2013-11-27
申请号:CN201310368700.1
申请日:2013-08-22
Applicant: 清华大学
Abstract: 本发明提出一种检测欺诈电话的方法,包括以下步骤:获取搜索引擎日志;并从中提取预设时间段内的包含预设关键字段的查询集合,对该查询集合进行筛选,并将筛选的查询集合按照查询次数进行排序;将排序后的查询集合提交至搜索引擎进行搜索,对搜索结果进行分析,以获取种子官方电话集合及种子欺诈电话集合;根据搜索结果建立电话共现关系图;根据种子官方电话集合、种子欺诈电话集合、及电话共现关系图检测搜索结果中是否存在欺诈电话。本发明的实施例能够及时高效地检测欺诈电话,提升搜索引擎的服务性能,减少用户的损失,另外,该方法涉及的算法复杂度低,易于实现,具有较好的推广性和适应性,且检测效果客观、全面、可靠。
-
公开(公告)号:CN102169496A
公开(公告)日:2011-08-31
申请号:CN201110091312.4
申请日:2011-04-12
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明提出一种基于锚文本分析的领域术语自动生成方法,包括以下步骤:采集用户的浏览日志;对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。本发明能够自动从锚文本中发现和提取领域术语,并且模型结构和参数简单,算法复杂度低,在实验测试数据上取得了较好的性能和领域术语发现效果。
-
公开(公告)号:CN103412940B
公开(公告)日:2016-08-10
申请号:CN201310368700.1
申请日:2013-08-22
Applicant: 清华大学
Abstract: 本发明提出一种检测欺诈电话的方法,包括以下步骤:获取搜索引擎日志;并从中提取预设时间段内的包含预设关键字段的查询集合,对该查询集合进行筛选,并将筛选的查询集合按照查询次数进行排序;将排序后的查询集合提交至搜索引擎进行搜索,对搜索结果进行分析,以获取种子官方电话集合及种子欺诈电话集合;根据搜索结果建立电话共现关系图;根据种子官方电话集合、种子欺诈电话集合、及电话共现关系图检测搜索结果中是否存在欺诈电话。本发明的实施例能够及时高效地检测欺诈电话,提升搜索引擎的服务性能,减少用户的损失,另外,该方法涉及的算法复杂度低,易于实现,具有较好的推广性和适应性,且检测效果客观、全面、可靠。
-
公开(公告)号:CN103294664A
公开(公告)日:2013-09-11
申请号:CN201310279184.5
申请日:2013-07-04
Applicant: 清华大学
IPC: G06F17/27
Abstract: 本发明提出一种开放领域新词发现的方法及系统。其中,方法包括:接收待处理语料,并对语料进行格式转换和分词处理,以获得多个文本信息;提取多个文本信息的特征信息;判断多个文本信息中一部分文本信息的相邻的文本信息的组合是否为新词;如果是,则对相邻的文本信息进行新词边界标注;根据标注后的多个文本信息和特征信息估计条件随机场模型的参数;根据估计的条件随机场模型的参数对剩余文本信息进行识别,以获得剩余文本信息的新词。根据本发明实施例的方法,通过对文本信息进行新词边界标注,估计条件随机场模型的参数,并对多个文本信息进行识别以获得多个文本信息中的新词,可以对各种领域的新词进行识别,同时提高了识别的效率。
-
公开(公告)号:CN103064984A
公开(公告)日:2013-04-24
申请号:CN201310029963.X
申请日:2013-01-25
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合;从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。
-
-
-
-
-
-
-
-
-