-
公开(公告)号:CN102929988B
公开(公告)日:2015-07-08
申请号:CN201210401317.7
申请日:2012-10-19
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了用于对倒排索引进行压缩的文档序号重排方法及其系统,该方法包括:步骤1,对已经分配好文档序号的文档进行词语划分得到词项,对所述词项按照其在所述文档中的出现频率进行排列,得到第一顺序的词项;步骤2,利用所述第一顺序的词项对所述文档进行重新排序,获得所述文档的最终排序;步骤3,新的文档序号按照所述文档的最终排序进行重新分配。本发明在运行过程中通过对词项进行排序,挖掘文档之间的相似度关系,仅占用少量内存空间,大大降低了算法的时间复杂度和空间复杂度。
-
公开(公告)号:CN103235794A
公开(公告)日:2013-08-07
申请号:CN201310113071.8
申请日:2013-04-02
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种基于文档序号处理的倒排索引表示方法及系统,其中方法包括:步骤1.将倒排记录表按文档序号升序或降序排列,获得排序后的倒排记录表,从排序后的倒排记录表提取多个文档序列;步骤2.计算所述多个文档序列的序列长度,根据所述序列长度对其进行相应操作:当序列的长度n小于3时,直接存储该序列,当序列的长度n大于等于3时,提取该序列起始和终止的两个边界文档序号,并在所述两个边界文档序号中间插入数字0后进行储存;步骤3.进行差值处理:对储存的所有序列的相邻文档序号进行差值计算并将相邻文档序号进行比较,获得的差值代替大的边界文档序号,获得新的倒排表。本发明能够有效地提高倒排索引的压缩率。
-
公开(公告)号:CN102385719A
公开(公告)日:2012-03-21
申请号:CN201110339224.1
申请日:2011-11-01
Applicant: 中国科学院计算技术研究所
IPC: G06Q10/04
Abstract: 本发明提供一种回归预测方法,不仅考虑自变量X之间相似度,还考虑了原数据中因变量Y之间的相似度,从近邻和近邻的历史的角度考虑了输出值y发展的模式。相比以往未考虑数据发展模式的模型,该方法在数据集上,只增加了一个预处理的阶段,不需要额外的资源就可以丰富数据点的信息;而且丰富了原数据点X的信息,最终提高预测效果。另外,可以在MapReduce框架上进行实现,利用其并行性来提高执行速度。
-
公开(公告)号:CN101673306B
公开(公告)日:2011-08-24
申请号:CN200910236057.0
申请日:2009-10-19
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及网页信息查询方法及其系统,方法包括:步骤1,预设查询分类的类别和分类依据的参考量,根据所述类别和所述参考量建立分类器;步骤2,输入查询词,搜索引擎依据输入的查询词进行查询,获得查询结果网页;步骤3,所述分类器对查询结果网页进行分类,并按分类显示查询结果网页。本发明能够对查询结果网页进行分类。
-
公开(公告)号:CN100458784C
公开(公告)日:2009-02-04
申请号:CN200610072075.6
申请日:2006-04-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出了一种在数字图书馆中所采用的检索系统,包括:包含一个或多个检索控制器的检索控制器层,用于将来自用户的用户查询转发到检索服务器层,并对来自检索服务器层的相应检索结果进行处理以返回给用户;包含一个或多个检索服务器的检索服务器层,用于存储数字图书馆的核心索引数据,并针对所述用户查询首先在所述核心索引数据中执行检索以获取检索结果,而在核心索引数据中无法获取检索结果的情况下,则通过访问索引服务器层以获取检索结果,并将所获得的检索结果提供给检索控制器层;以及包含一个或多个索引服务器的索引服务器层,用于存储数字图书馆的所有索引数据,以便从所述所有索引数据中检索出相应的索引以获取检索结果。
-
公开(公告)号:CN101051309A
公开(公告)日:2007-10-10
申请号:CN200610072075.6
申请日:2006-04-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出了一种在数字图书馆中所采用的检索系统,包括:包含一个或多个检索控制器的检索控制器层,用于将来自用户的用户查询转发到检索服务器层,并对来自检索服务器层的相应检索结果进行处理以返回给用户;包含一个或多个检索服务器的检索服务器层,用于存储数字图书馆的核心索引数据,并针对所述用户查询首先在所述核心索引数据中执行检索以获取检索结果,而在核心索引数据中无法获取检索结果的情况下,则通过访问索引服务器层以获取检索结果,并将所获得的检索结果提供给检索控制器层;以及包含一个或多个索引服务器的索引服务器层,用于存储数字图书馆的所有索引数据,以便从所述所有索引数据中检索出相应的索引以获取检索结果。
-
公开(公告)号:CN1281029C
公开(公告)日:2006-10-18
申请号:CN200410047534.6
申请日:2004-05-21
Applicant: 中国科学院计算技术研究所
IPC: H04L12/24
Abstract: 本发明涉及网络通信技术领域,利用网络用户访问特性的网络代理缓存替换方法。该方法利用用户访问网络的特性,设计了一种网络代理缓存替换系统来实现网络代理缓存服务。步骤:S1,假设Δ′T是网络代理缓存中某页面这次被访问和下次被访问期间发生的所有访问的次数;S2,用户请求页面t,判断缓存中是否包含了t的副本?S3,把t的过期副本从缓存中删除,从网络服务器获得t的新副本;S4,判断缓存中的剩余空间是否足以存放t的新副本?S5,替换优先级最低的页面;S6,把t的新副本压入缓存,S7,副本被返回给用户;S8,根据权重计算公式更新缓存中每个页面的权重;S9,判断是否已经过了一个固定时间段。
-
公开(公告)号:CN102495837B
公开(公告)日:2014-05-07
申请号:CN201110339200.6
申请日:2011-11-01
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种数字信息推荐预测模型的训练方法和系统,该方法包括:1)接收打分数据;2)确定数字信息的不同类别,每个类别中包括多个项目,其中所述类别之间存在关联关系;3)基于所述关联关系建立所述模型并训练获得所述模型,其中所述模型中包括一个或多个和集合相关的参数,其中所述集合为与一个类别的项目相关的另一个类别的项目的集合或者多个与一个类别的项目相关的另一个类别的项目的集合的并集。上述训练的预测模型可以有效的在实际推荐中缓解用户打分数不足造成的可利用打分数据严重稀疏的问题,具有很好的推荐效果。
-
公开(公告)号:CN101364239A
公开(公告)日:2009-02-11
申请号:CN200810223792.3
申请日:2008-10-13
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种分类目录自动构建方法,包括:从现有数据中查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;计算所述概念术语集合中各个概念术语间的相关度;根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录后,返回给用户。本发明在现有的搜索引擎的基础上,为用户提供的查询词生成了相应的分类目录,所得到的分类目录能够反映用户查询的不同含义,从而有助于用户更容易、更快捷地找到所需的信息。
-
公开(公告)号:CN1787007A
公开(公告)日:2006-06-14
申请号:CN200510130688.6
申请日:2005-12-21
Applicant: 中国科学院计算技术研究所
IPC: G06Q40/00
Abstract: 本发明涉及网络信息处理技术领域,是一种在股评论坛中利用股评人对某只股票发表股评的前后股市行情的变化,来挖掘股评托的方法。本发明从股评论坛中抽取出某段时间内每个股评人的股评,然后以该股评出笼前后相应股票的行情序列为窗口,用股评托行为模式与窗口中的股评行情序列进行匹配,基于匹配的频率计算股评人是股评托的概率。在股评论坛中挖掘股评托,能够帮助个人投资者认清股评论坛中股评托的真面目,帮助证券业的管理者发现危险分子加以预警,甚至清除出行业队伍,从而保证证券市场的健康发展。目前对我国股评托的行为研究几乎没有。
-
-
-
-
-
-
-
-
-