基于语义距离模型的XML文档关键字搜索聚类方法

    公开(公告)号:CN101241502A

    公开(公告)日:2008-08-13

    申请号:CN200810034546.3

    申请日:2008-03-13

    Applicant: 复旦大学

    Inventor: 杨卫东 朱皓

    Abstract: 本发明属于Web数据管理技术领域,具体为一种基于语义距离模型的可扩充标记语言(XML)的关键字搜索方法,称为XKLuster。本发明提出一种新的模型,称为“XML关键字语义距离模型”。它通过更全面地考虑XML的层次结构特征来度量XML关键字搜索的语义;基于本发明提出的“XML关键字语义距离模型”,从不同的角度,设计三种聚类算法:基于图的关键字聚类算法(GKSC)、核心集驱动的关键字聚类算法(CKSC)和松弛的核心集驱动聚类算法(LCC);提出一种排序模型对所有的搜索结果进行排序,以便将搜索结果返回给用户。与已有方法相比,本发明提出的方法可得到更加合理的返回结果。本发明可用于互联网上的XML文档搜索、XML数据库的搜索等领域。

    XML流数据的复杂小枝模式查询匹配方法

    公开(公告)号:CN1941743A

    公开(公告)日:2007-04-04

    申请号:CN200610116333.6

    申请日:2006-09-21

    Applicant: 复旦大学

    Inventor: 杨卫东 施伯乐

    Abstract: 本发明属于XML流数据处理技术领域,具体为一种XML流数据的复杂小枝模式查询匹配方法。问题的提出如下:给定一个包含复杂小枝模式的查询集合Q,以及一个XML文档D,找出Q`Q,满足对每一个q∈Q`,都匹配文档D。本发明通过定义的紧凑小枝模式查询树,将复杂的AND/OR谓词作为单独的抽象语法树来处理,同时,将所有小枝模式查询组合成单个可共享公共前缀的查询树,利用提出的基于运行栈的算法,结合自顶向下和自顶向上过程,单遍、高效处理基于XML流的任何复杂小枝查询。本发明与已有系统和方法相比,避免产生大量中间结果,查询处理性能有明显提高,特别是对大XML文档,处理效率成倍提高。

Patent Agency Ranking