-
公开(公告)号:CN106294330A
公开(公告)日:2017-01-04
申请号:CN201510233967.9
申请日:2015-05-11
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明提出了一种科技文本挑选方法及装置,属于计算机文本分析挖掘领域。本发明实施例装置及方法包括:选取的特征样本集;对样本集中文本进行特征评分的计算模块,包括基于文本的客观评分模块、文本的模糊评分模块以及文本与样本集间关联度评分模块,其中基于文本的模糊评分模块包括文本专业词汇模糊评分、文本关键句式判别与评分以及文本语言客观度评分;通过建立以各项评分与文本是否被标注为可选的训练集,训练得到的神经网络模型筛选的模型;对于待挑选文本,挑选方法为,文本先进行各项特征评分,再经已训练好的神经网络模型筛选。本发明还可用于其他各种具有一定特征的专业文档的评价挑选或评价挑选系统的建立。
-
公开(公告)号:CN102054004B
公开(公告)日:2015-05-06
申请号:CN200910236869.5
申请日:2009-11-04
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页推荐方法和装置,属于数据挖掘领域。所述方法包括:获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案,使得用户可以在推荐网页集中查看摘要或点击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得了较好的性能,满足了实际应用中的需要。
-
公开(公告)号:CN103412940A
公开(公告)日:2013-11-27
申请号:CN201310368700.1
申请日:2013-08-22
Applicant: 清华大学
Abstract: 本发明提出一种检测欺诈电话的方法,包括以下步骤:获取搜索引擎日志;并从中提取预设时间段内的包含预设关键字段的查询集合,对该查询集合进行筛选,并将筛选的查询集合按照查询次数进行排序;将排序后的查询集合提交至搜索引擎进行搜索,对搜索结果进行分析,以获取种子官方电话集合及种子欺诈电话集合;根据搜索结果建立电话共现关系图;根据种子官方电话集合、种子欺诈电话集合、及电话共现关系图检测搜索结果中是否存在欺诈电话。本发明的实施例能够及时高效地检测欺诈电话,提升搜索引擎的服务性能,减少用户的损失,另外,该方法涉及的算法复杂度低,易于实现,具有较好的推广性和适应性,且检测效果客观、全面、可靠。
-
-
公开(公告)号:CN102169496A
公开(公告)日:2011-08-31
申请号:CN201110091312.4
申请日:2011-04-12
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明提出一种基于锚文本分析的领域术语自动生成方法,包括以下步骤:采集用户的浏览日志;对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。本发明能够自动从锚文本中发现和提取领域术语,并且模型结构和参数简单,算法复杂度低,在实验测试数据上取得了较好的性能和领域术语发现效果。
-
公开(公告)号:CN102054004A
公开(公告)日:2011-05-11
申请号:CN200910236869.5
申请日:2009-11-04
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页推荐方法和装置,属于数据挖掘领域。所述方法包括:获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案,使得用户可以在推荐网页集中查看摘要或点击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得了较好的性能,满足了实际应用中的需要。
-
公开(公告)号:CN101329687B
公开(公告)日:2010-06-23
申请号:CN200810117516.9
申请日:2008-07-31
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种新闻网页定位方法,包括步骤:根据用户访问网页时所记录的访问日志,利用新闻的时效性区分新闻网页与非新闻网页;根据不同网页的统一资源定位符构建目录结构,将再同一目录中新闻网页出现比例高的目录确定为前缀;将所链接网页的个数高于设定阈值的确定索引网页;将索引网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所确定的前缀作为起始时,将新网页定位为新闻网页并下载。本发明的方法基于用户行为,分析新闻网页的用户访问演变特征,迅速挑选出新闻网页,该方法可以及时、准确、客观的定位并下载新闻网页,以供用户搜查查询时获取更准更全的信息。
-
公开(公告)号:CN100507920C
公开(公告)日:2009-07-01
申请号:CN200710099594.6
申请日:2007-05-25
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明属于互联网信息处理领域,其特征在于:它根据单个或多个搜索引擎日志,首先利用查询对应的用户数信息,从中筛选出用户关注的常用查询集合;随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率,若利用多搜索引擎日志信息,则对用户点击率进行合并;根据用户点击率对用户点击页面进行有效筛选,并把相关查询和对应的结果页面地址保存到相关数据库;最后,当用户提交查询需求时,把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合,重新排序后返回给用户。该方法具有计算机自动完成,实时有效客观地提交搜索引擎性能的优点。
-
-
-
-
-
-
-
-