一种面向中文分词的搜索算法

    公开(公告)号:CN108846016B

    公开(公告)日:2021-08-20

    申请号:CN201810422499.3

    申请日:2018-05-05

    Applicant: 复旦大学

    Abstract: 本发明属于文本搜索引擎技术领域,具体为一种面向中文分词的搜索算法。本发明算法主要分为两个阶段:离线构建索引阶段和在线查找阶段。在离线构建索引阶段,首先提取所有原始字符串集合的后缀串集合,然后由后缀串集合生成改进的后缀树;在在线查找阶段,首先根据基于后缀树的索引模型得到关键词的查询结果,然后量化关键词和查询结果的匹配程度,最后将查询结果按匹配程序由高到低排序后返回。本发明通过一种改进的基于后缀树的索引结构来平衡索引构建时间和占用空间,使用本发明的索引结构的搜索效率远高于对结果集暴力计算匹配度并排序的效率。

    一种面向中文分词的搜索算法

    公开(公告)号:CN108846016A

    公开(公告)日:2018-11-20

    申请号:CN201810422499.3

    申请日:2018-05-05

    Applicant: 复旦大学

    Abstract: 本发明属于文本搜索引擎技术领域,具体为一种面向中文分词的搜索算法。本发明算法主要分为两个阶段:离线构建索引阶段和在线查找阶段。在离线构建索引阶段,首先提取所有原始字符串集合的后缀串集合,然后由后缀串集合生成改进的后缀树;在在线查找阶段,首先根据基于后缀树的索引模型得到关键词的查询结果,然后量化关键词和查询结果的匹配程度,最后将查询结果按匹配程序由高到低排序后返回。本发明通过一种改进的基于后缀树的索引结构来平衡索引构建时间和占用空间,使用本发明的索引结构的搜索效率远高于对结果集暴力计算匹配度并排序的效率。

Patent Agency Ranking