-
公开(公告)号:CN103605641A
公开(公告)日:2014-02-26
申请号:CN201310557161.6
申请日:2013-11-11
Applicant: 清华大学
Abstract: 本发明提供一种汉语缩略语自动发现的方法,包括:对预置训练集上的“原语-缩略语”对进行统计,得到“原语-缩略语”的统计集合;对于统计集合中的每个“原语-缩略语”对,将“原语-缩略语”对转化成相应的缩略模式,并对于每个原语,得到其各个缩略模式对应的概率;对于缩略语未知的原语,利用对应长度的缩略模式集合,生成缩略语候选,并且为每一个候选缩略语赋以缩略模式的概率值;将每一个原语作为查询在二部图上拓展得到一个相关查询列表,相关查询列表以相似性降序排列;对于每一个通过缩略语候选,基于相关查询列表对缩略语候选进行验证,计算缩略语候选的候选分数;选取候选分数最高的缩略语候选作为原语的缩略语。
-
公开(公告)号:CN103455639A
公开(公告)日:2013-12-18
申请号:CN201310452806.X
申请日:2013-09-27
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明提供一种识别微博突发热点事件的方法及装置,用以克服现有技术脱离内容分析趋势变化、或完全依赖于内容进行事件发现等不足,其中识别微博突发热点事件的方法包括:提取所有热点事件的微博话题标签,并记录每个话题标签的发布时间、作者信息以及热门程度;其中,所述热门程度是指在不同时间段内的出现次数;对于所述每个话题标签,计算所述每个话题标签的三个度量值;其中,三个度量值分别为不稳定性程度、在线话题可能性程度和标签作者信息熵;根据所述三个度量值的高低判断相应的热点事件是否为突发事件。
-
公开(公告)号:CN101789017A
公开(公告)日:2010-07-28
申请号:CN201010109570.6
申请日:2010-02-09
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明提出一种基于用户互联网浏览行为的网页描述文档构建方法,包括以下步骤:提取用户浏览日志中记录的用户浏览事件;根据用户浏览事件建立用户浏览链接/网页模型;根据用户浏览链接/网页模型生成网页描述文档。本发明实施例提出的网页描述文档构建方法融合了用户的网页浏览行为,从而可以在不需要人工刻意参与的情况下,准确客观和快捷及时的进行检索。
-
公开(公告)号:CN101369285B
公开(公告)日:2010-06-02
申请号:CN200810224323.3
申请日:2008-10-17
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种中文搜索引擎中查询词的拼写校正方法,属于网络信息处理领域。该方法包括:判断输入中文搜索引擎的英文查询词是否为正确的英文查询词;对非正确的英文查询词,生成所述非正确的英文查询词的候选形式,按照预设规则将所述候选形式列入候选集合;对所述候选集合中的所有候选形式进行评分,将分值最高的候选形式作为校正后的形式返回给用户。本发明通过对错误的查询词的候选形式进行度量,选出分值最高的候选形式作为查询词的校正形式,有效地避免拼写错误对搜索引擎的误导,使得搜索引擎更加智能。
-
公开(公告)号:CN101369285A
公开(公告)日:2009-02-18
申请号:CN200810224323.3
申请日:2008-10-17
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明公开了一种中文搜索引擎中查询词的拼写校正方法,属于网络信息处理领域。该方法包括:判断输入中文搜索引擎的英文查询词是否为正确的英文查询词;对非正确的英文查询词,生成所述非正确的英文查询词的候选形式,按照预设规则将所述候选形式列入候选集合;对所述候选集合中的所有候选形式进行评分,将分值最高的候选形式作为校正后的形式返回给用户。本发明通过对错误的查询词的候选形式进行度量,选出分值最高的候选形式作为查询词的校正形式,有效地避免拼写错误对搜索引擎的误导,使得搜索引擎更加智能。
-
公开(公告)号:CN101329687A
公开(公告)日:2008-12-24
申请号:CN200810117516.9
申请日:2008-07-31
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明涉及一种新闻网页定位方法,包括步骤:根据用户访问网页时所记录的访问日志,利用新闻的时效性区分新闻网页与非新闻网页;根据不同网页的统一资源定位符构建目录结构,将再同一目录中新闻网页出现比例高的目录确定为前缀;将所链接网页的个数高于设定阈值的确定索引网页;将索引网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所确定的前缀作为起始时,将新网页定位为新闻网页并下载。本发明的方法基于用户行为,分析新闻网页的用户访问演变特征,迅速挑选出新闻网页,该方法可以及时、准确、客观的定位并下载新闻网页,以供用户搜查查询时获取更准更全的信息。
-
公开(公告)号:CN101055587A
公开(公告)日:2007-10-17
申请号:CN200710099594.6
申请日:2007-05-25
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明属于互联网信息处理领域,其特征在于:它根据单个或多个搜索引擎日志,首先利用查询对应的用户数信息,从中筛选出用户关注的常用查询集合;随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率,若利用多搜索引擎日志信息,则对用户点击率进行合并;根据用户点击率对用户点击页面进行有效筛选,并把相关查询和对应的结果页面地址保存到相关数据库;最后,当用户提交查询需求时,把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合,重新排序后返回给用户。该方法具有计算机自动完成,实时有效客观地提交搜索引擎性能的优点。
-
公开(公告)号:CN114064748B
公开(公告)日:2025-04-01
申请号:CN202111254337.1
申请日:2021-10-27
Applicant: 清华大学 , 北京达佳互联信息技术有限公司
IPC: G06F16/2458 , G06F16/2457
Abstract: 本公开关于反馈指标预测模型训练方法、对象推荐方法及相关设备,其中训练方法包括:获取基于随机投放实验得到的样本对象的随机投放信息;随机投放信息表征随机投放的用户账户对样本对象的反馈;根据样本对象对应的随机投放信息,确定样本对象对应的目标反馈指标;根据样本对象在历史推荐中的第一历史反馈信息序列,确定样本对象对应的历史反馈特征;根据样本对象对应的历史反馈特征和目标反馈指标训练预设机器学习模型得到反馈指标预测模型;其中,目标反馈指标作为历史反馈特征对应的期望预测值。本公开提高了反馈指标预测模型对于物品价值预测的准确性,进而有利于提高各物品的展示机会与其真正价值的匹配性。
-
公开(公告)号:CN114020878B
公开(公告)日:2024-08-02
申请号:CN202111432817.2
申请日:2021-11-29
Applicant: 清华大学
Abstract: 本公开涉及一种特征文本匹配方法及装置、电子设备和存储介质,所述方法包括:据输入文件的类别信息,确定所述输入文件所属的目标文件集;通过特征文本分类模型,确定输入文件的特征文本;通过特征文本匹配模型,确定输入文件的特征文本与历史文件的特征文本之间的匹配得分;根据匹配得分,确定与所述输入文件匹配的目标特征文本。根据本公开的实施例的特征文本匹配方法,可提取输入文件的特征文本,并与目标文件集中的多个历史文件的特征文本进行匹配处理,可有效地提取输入文件多个方面的特征,以对多种特征进行更加全方面的匹配,且匹配可精确定位到文本层面,而不仅限于找到匹配的文件,从而提升检索效率和匹配准确性。
-
公开(公告)号:CN109241243B
公开(公告)日:2020-11-24
申请号:CN201811004434.3
申请日:2018-08-30
Applicant: 清华大学
IPC: G06F16/33 , G06F16/9535
Abstract: 本公开是关于一种候选文档排序方法及装置,该方法包括:根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档;根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇;根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行排序处理,获得所述第一候选文档的排序列表。本公开能够确保选择与当前查询会话的关键词和/或候选文档相关的马尔可夫模型来对候选文档进行排序,使得候选文档的排序能够更加趋向于用户的查询期望。
-
-
-
-
-
-
-
-
-