-
公开(公告)号:CN100570611C
公开(公告)日:2009-12-16
申请号:CN200810118668.0
申请日:2008-08-22
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 一种基于观点检索的信息检索文档的评分方法属于信息处理领域。其特征在于:它首先建立情感词列表,在列表中指定要在检索系统中使用的所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在系统中计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数,计算出系统中每篇文档的主客观性评分;再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;最后检索系统根据文档的最终评分对系统中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。该技术具有计算机自动完成,能够返回既具有高相关性又带有强烈主观意见的检索结果的优点。
-
公开(公告)号:CN101344890A
公开(公告)日:2009-01-14
申请号:CN200810118668.0
申请日:2008-08-22
Applicant: 清华大学
IPC: G06F17/30
Abstract: 一种基于观点检索的信息检索文档的评分方法属于信息处理领域。其特征在于:它首先建立情感词列表,在列表中指定要在检索系统中使用的所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在系统中计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数,计算出系统中每篇文档的主客观性评分;再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;最后检索系统根据文档的最终评分对系统中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。该技术具有计算机自动完成,能够返回既具有高相关性又带有强烈主观意见的检索结果的优点。
-
公开(公告)号:CN101105801A
公开(公告)日:2008-01-16
申请号:CN200710098531.9
申请日:2007-04-20
Applicant: 清华大学
IPC: G06F17/30
Abstract: 一种网络关键资源页面的自动定位方法,属于互联网信息处理领域,其特征在于:它首先从多家搜索引擎用户查询点击信息记录中筛选出具有时效性和代表性的查询主题词,提取出其对应的用户点击结果页面和结果页面的“用户点击率”,得到查询主题集合、关键资源页面候选集和“用户点击分布”;随后对多家搜索引擎的用户查询点击信息记录上得到的“用户点击分布”进行融合,利用“查询可信度”信息得到融合后的“用户点击分布”;最后根据融合后的“用户点击分布”对关键资源页面候选集中的页面进行判定,得到主题相关的关键资源页面。该方法具有计算机自动,准确客观和迅速定位的优点。
-
公开(公告)号:CN1119758C
公开(公告)日:2003-08-27
申请号:CN01118674.7
申请日:2001-06-08
Applicant: 清华大学
Abstract: 本发明属于计算机文字处理技术领域,涉及汉语盲文到汉字的自动转换方法,将盲文书籍扫描后识别成为盲文文本,或用键盘输入盲文文本,将该盲文文本当作拼音流转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换。使得系统整体转换正确率达到97%以上。
-
公开(公告)号:CN1075811A
公开(公告)日:1993-09-01
申请号:CN93101683.5
申请日:1993-02-25
Applicant: 清华大学
IPC: G06K9/00
Abstract: 本发明属于模式识别和人工智能技术领域。其特点是先采用识别楷书和部分行书的基于汉字笔划基元有容错能力的句法结构分析方法得到识别结果,若“拒识”则再用识别不规范连笔字的基于字型的统计联机识别方法得到识别结果。本发明可以识别楷书、行书及识别不规范的手写连笔字。识别范围是手写简体汉字,手写繁体汉字,数字和西文等。使用本发明不必记忆任何编码,不需进行训练,不改变人们书写汉字的习惯,是非常方便的汉字输入方法。
-
-
-
-