-
公开(公告)号:CN102402605A
公开(公告)日:2012-04-04
申请号:CN201110373397.5
申请日:2011-11-22
申请人: 微软公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30864 , G06F17/30194 , G06F17/30442 , G06F17/3053
摘要: 本发明提供了用于搜索引擎索引的混合分布模型,并且还提供了基于搜索查询使用混合分布系统来识别相关文档的方法和系统。为特定片段指定文档群组。所述文档群组由原子和文档索引,从而形成倒排索引和正排索引。全部两项索引被划分在该片段中的每一个节点当中,从而使得每一个节点负责存储及访问倒排索引和正排索引二者的不同部分。在第一节点集合当中的每一个节点上访问倒排索引部分,以便识别出与特定搜索查询相关的第一文档集合。使用与第一文档集合相关联的文档标识来识别出第二节点集合,所述第二节点集合访问其正排索引部分以便把相关文档的数目限制到第二文档集合。
-
公开(公告)号:CN102402604A
公开(公告)日:2012-04-04
申请号:CN201110373394.1
申请日:2011-11-22
申请人: 微软公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30864 , G06F17/30613
摘要: 本发明涉及搜索引擎的有效前向排序,其中提出了用于生成前向索引中的用于文档的条目的方法和计算机存储介质。除查询无关的静态特征之外,还接收文档和其文档标识。文档被解析为令牌,以形成对应于文档的令牌流。标识用于计算文档排序的相关数据并确定数据的位置。然后根据文档标识、文档的令牌流、静态特征和相关数据的位置信息生成条目。将条目存储在前向索引中。
-
公开(公告)号:CN102402604B
公开(公告)日:2015-04-01
申请号:CN201110373394.1
申请日:2011-11-22
申请人: 微软公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30864 , G06F17/30613
摘要: 本发明涉及搜索引擎的有效前向排序,其中提出了用于生成前向索引中的用于文档的条目的方法和计算机存储介质。除查询无关的静态特征之外,还接收文档和其文档标识。文档被解析为令牌,以形成对应于文档的令牌流。标识用于计算文档排序的相关数据并确定数据的位置。然后根据文档标识、文档的令牌流、静态特征和相关数据的位置信息生成条目。将条目存储在前向索引中。
-
公开(公告)号:CN102402605B
公开(公告)日:2014-04-02
申请号:CN201110373397.5
申请日:2011-11-22
申请人: 微软公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30864 , G06F17/30194 , G06F17/30442 , G06F17/3053
摘要: 本发明提供了用于搜索引擎索引的混合分布模型,并且还提供了基于搜索查询使用混合分布系统来识别相关文档的方法和系统。为特定片段指定文档群组。所述文档群组由原子和文档索引,从而形成倒排索引和正排索引。全部两项索引被划分在该片段中的每一个节点当中,从而使得每一个节点负责存储及访问倒排索引和正排索引二者的不同部分。在第一节点集合当中的每一个节点上访问倒排索引部分,以便识别出与特定搜索查询相关的第一文档集合。使用与第一文档集合相关联的文档标识来识别出第二节点集合,所述第二节点集合访问其正排索引部分以便把相关文档的数目限制到第二文档集合。
-
公开(公告)号:CN102567461A
公开(公告)日:2012-07-11
申请号:CN201110373395.6
申请日:2011-11-22
申请人: 微软公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30864
摘要: 提供了一种用于大文档索引的匹配漏斗。通过以多个阶段评估和修剪候选文档来响应于搜索查询识别并返回搜索结果。该过程采用对文档中发现的义原和文档/义原对的预先计算的评分编索引的搜索索引。当接收到搜索查询时,从搜索查询识别义原且基于所识别的义原生成重新阐述的查询。重新阐述的查询用于识别匹配文档,且使用简化评分函数和搜索索引中预先计算的评分来生成匹配文档的初步评分。基于初步评分来修剪文档,且使用最终排序算法来评估其余文档,最终排序算法提供排序文档的最终集合,其用于响应于搜索查询生成搜索结果以返回。
-
-
-
-