用于大文档索引的匹配漏斗

    公开(公告)号:CN102567461A

    公开(公告)日:2012-07-11

    申请号:CN201110373395.6

    申请日:2011-11-22

    申请人: 微软公司

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30864

    摘要: 提供了一种用于大文档索引的匹配漏斗。通过以多个阶段评估和修剪候选文档来响应于搜索查询识别并返回搜索结果。该过程采用对文档中发现的义原和文档/义原对的预先计算的评分编索引的搜索索引。当接收到搜索查询时,从搜索查询识别义原且基于所识别的义原生成重新阐述的查询。重新阐述的查询用于识别匹配文档,且使用简化评分函数和搜索索引中预先计算的评分来生成匹配文档的初步评分。基于初步评分来修剪文档,且使用最终排序算法来评估其余文档,最终排序算法提供排序文档的最终集合,其用于响应于搜索查询生成搜索结果以返回。