-
公开(公告)号:CN101241502A
公开(公告)日:2008-08-13
申请号:CN200810034546.3
申请日:2008-03-13
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于Web数据管理技术领域,具体为一种基于语义距离模型的可扩充标记语言(XML)的关键字搜索方法,称为XKLuster。本发明提出一种新的模型,称为“XML关键字语义距离模型”。它通过更全面地考虑XML的层次结构特征来度量XML关键字搜索的语义;基于本发明提出的“XML关键字语义距离模型”,从不同的角度,设计三种聚类算法:基于图的关键字聚类算法(GKSC)、核心集驱动的关键字聚类算法(CKSC)和松弛的核心集驱动聚类算法(LCC);提出一种排序模型对所有的搜索结果进行排序,以便将搜索结果返回给用户。与已有方法相比,本发明提出的方法可得到更加合理的返回结果。本发明可用于互联网上的XML文档搜索、XML数据库的搜索等领域。
-
公开(公告)号:CN1941743A
公开(公告)日:2007-04-04
申请号:CN200610116333.6
申请日:2006-09-21
Applicant: 复旦大学
Abstract: 本发明属于XML流数据处理技术领域,具体为一种XML流数据的复杂小枝模式查询匹配方法。问题的提出如下:给定一个包含复杂小枝模式的查询集合Q,以及一个XML文档D,找出Q`Q,满足对每一个q∈Q`,都匹配文档D。本发明通过定义的紧凑小枝模式查询树,将复杂的AND/OR谓词作为单独的抽象语法树来处理,同时,将所有小枝模式查询组合成单个可共享公共前缀的查询树,利用提出的基于运行栈的算法,结合自顶向下和自顶向上过程,单遍、高效处理基于XML流的任何复杂小枝查询。本发明与已有系统和方法相比,避免产生大量中间结果,查询处理性能有明显提高,特别是对大XML文档,处理效率成倍提高。
-