-
公开(公告)号:CN101630315B
公开(公告)日:2011-09-14
申请号:CN200810116757.1
申请日:2008-07-16
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明涉及一种快速检索方法及系统,该方法包括:收集待检索对象列表及文档;在文档中标注出现在待检索对象列表中的待检索对象;抽取文档中已标注的待检索对象前后各若干个字符信息;将由同一待检索对象抽取的字符信息汇集为一个文档,得到该待检索对象对应的描述文档;根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果,该系统包括待检索信息获取单元、待检索对象标注单元、待检索信息抽取单元、待检索信息整理单元和检索单元。本发明在线下将对应对象列表中对象具有支持和描述信息识别并抽取汇集为一个文档,用户检索时直接将该对象对应的所有信息输出,检索速度快,检索精度高。
-
公开(公告)号:CN101599160A
公开(公告)日:2009-12-09
申请号:CN200910088943.3
申请日:2009-07-14
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明公开了一种投放广告的方法及装置,属于广告领域。所述方法包括:分别建立网页分类体系及广告分类体系,建立所述网页分类体系与所述广告分类体系之间的对应关系;根据所述网页分类体系与所述广告分类体系之间的对应关系,为任一待投放广告的网页查找相关广告,所述相关广告为一至多个;计算查找到的每个相关广告与所述任一待投放广告的网页的相关度,并根据计算出的相关度,为所述任一待投放广告的网页投放相关度满足阈值的相关广告。本发明通过建立广告分类体系与网页分类体系之间的对应关系,并根据该对应关系,为任一待投放广告的网页查找并投放相关度满足阈值的相关广告,具有使投放的广告更具目标性及相关性,实现吸引用户点击的效果。
-
公开(公告)号:CN101576916A
公开(公告)日:2009-11-11
申请号:CN200910087076.1
申请日:2009-06-18
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种获取同义词的方法及装置,属于计算机领域。所述方法包括:创建词与结果地址的匹配对的集合;将所述集合中的每个词作为待查找的词,根据所述待查找的词,从所述集合中查找匹配的结果地址;根据所述结果地址,从所述集合中查找与所述结果地址匹配的词,将所述查找到的词作为同义词。所述装置包括:创建模块、第一查找模块和第二查找模块。本发明能够更容易获取同义词,减少人力、物力资源以及提高算法效率。
-
公开(公告)号:CN100507918C
公开(公告)日:2009-07-01
申请号:CN200710098531.9
申请日:2007-04-20
Applicant: 清华大学
IPC: G06F17/30
Abstract: 一种网络关键资源页面的自动定位方法,属于互联网信息处理领域,其特征在于:它首先从多家搜索引擎用户查询点击信息记录中筛选出具有时效性和代表性的查询主题词,提取出其对应的用户点击结果页面和结果页面的“用户点击率”,得到查询主题集合、关键资源页面候选集和“用户点击分布”;随后对多家搜索引擎的用户查询点击信息记录上得到的“用户点击分布”进行融合,利用“查询可信度”信息得到融合后的“用户点击分布”;最后根据融合后的“用户点击分布”对关键资源页面候选集中的页面进行判定,得到主题相关的关键资源页面。该方法具有计算机自动,准确客观和迅速定位的优点。
-
公开(公告)号:CN100440224C
公开(公告)日:2008-12-03
申请号:CN200610144289.X
申请日:2006-12-01
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明属于互联网信息处理领域,其特征在于:它首先从搜索引擎用户访问日志中提取出用户的查询信息,在此基础上对用户查询进行分类;随后,对于不同类型的用户查询,根据用户访问日志中的用户点击信息进行自动分析,得出对应这些查询的用户点击焦点;最后对待评价搜索引擎的查询结果进行抓取,并根据用户查询的对应点击焦点对查询结果进行评价,得到搜索引擎性能的数值评价结果。它具有不需要人工参与,准确客观和快捷及时的优点。
-
公开(公告)号:CN1963816A
公开(公告)日:2007-05-16
申请号:CN200610144289.X
申请日:2006-12-01
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明属于互联网信息处理领域,其特征在于:它首先从搜索引擎用户访问日志中提取出用户的查询信息,在此基础上对用户查询进行分类;随后,对于不同类型的用户查询,根据用户访问日志中的用户点击信息进行自动分析,得出对应这些查询的用户点击焦点;最后对待评价搜索引擎的查询结果进行抓取,并根据用户查询的对应点击焦点对查询结果进行评价,得到搜索引擎性能的数值评价结果。它具有不需要人工参与,准确客观和快捷及时的优点。
-
公开(公告)号:CN1029534C
公开(公告)日:1995-08-16
申请号:CN93101683.5
申请日:1993-02-25
Applicant: 清华大学
IPC: G06K9/00
Abstract: 本发明属于模式识别和人工智能技术领域。其特点是先采用识别楷书和部分行书的基于汉字笔划基元有容错能力的句法结构分析方法得到识别结果,若“拒识”则再用识别不规范连笔字的基于字型的统计联机识别方法得到识别结果。本发明可以识别楷书、行书及识别不规范的手写连笔字。识别范围是手写简体汉字,手写繁体汉字,数字和西文等。使用本发明不必记忆任何编码,不需进行训练,不改变人们书写汉字的习惯,是非常方便的汉字输入方法。
-
公开(公告)号:CN116598004B
公开(公告)日:2023-11-28
申请号:CN202310869443.3
申请日:2023-07-17
Applicant: 清华大学 , 中国医学科学院北京协和医院
IPC: G16H50/30 , G06F16/33 , G06F16/35 , G06N3/0442 , G06N3/08
Abstract: 本申请涉及一种患病率的预测方法、装置、计算机设备和存储介质。所述方法包括:根据关键词表从搜索引擎的历史数据库中提取会话数据集;将会话数据集输入至会话分类模型中进行会话分类,得到分类结果;根据分类结果对会话数据集进行筛选,得到目标会话数据集;将目标会话数据集输入至预测模型中进行患病率预测,得到预测结果。采用本方法能够提高罕见病患病率的预测准确度。
-
公开(公告)号:CN115545738A
公开(公告)日:2022-12-30
申请号:CN202110742728.1
申请日:2021-06-30
IPC: G06Q30/02 , G06Q30/06 , G06F16/2458 , G06N3/04
Abstract: 本申请公开了一种信息推荐方法,可以应用于人工智能领域,本申请基于存在关联关系的物品和操作类型来生成表征目标用户喜好的目标用户特征向量,以及基于存在关联关系的用户和操作类型来生成表征目标物品对用户的吸引力特征的目标物品特征向量,来预测目标用户对目标物品的进行多个操作类型的操作的概率,其中,操作类型的概率可以更准确的刻画出用户针对于物品的操作行为,且基于多个操作类型的操作的概率进行的信息推荐结果可以更加准确。
-
公开(公告)号:CN114020878A
公开(公告)日:2022-02-08
申请号:CN202111432817.2
申请日:2021-11-29
Applicant: 清华大学
Abstract: 本公开涉及一种特征文本匹配方法及装置、电子设备和存储介质,所述方法包括:据输入文件的类别信息,确定所述输入文件所属的目标文件集;通过特征文本分类模型,确定输入文件的特征文本;通过特征文本匹配模型,确定输入文件的特征文本与历史文件的特征文本之间的匹配得分;根据匹配得分,确定与所述输入文件匹配的目标特征文本。根据本公开的实施例的特征文本匹配方法,可提取输入文件的特征文本,并与目标文件集中的多个历史文件的特征文本进行匹配处理,可有效地提取输入文件多个方面的特征,以对多种特征进行更加全方面的匹配,且匹配可精确定位到文本层面,而不仅限于找到匹配的文件,从而提升检索效率和匹配准确性。
-
-
-
-
-
-
-
-
-