基于结构分析的可扩展标记语言键约束验证方法

    公开(公告)号:CN100347702C

    公开(公告)日:2007-11-07

    申请号:CN200410042943.7

    申请日:2004-06-01

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于结构分析的可扩展标记语言键约束验证方法,包括根据输入的待验证的XML文档和该文档需遵从的键约束,抽取XML文档中的键值生成键值文档;根据预设计的键值文档DTD,检查键值文档是否满足键值文档DTD的结构约束,如果满足,则待验证的XML文档满足定义的键约束;否则该待验证的XML文档不满足键约束。本发明可应用于当前网络环境下各应用系统的基于XML的数据交换过程,满足了Internet上各应用系统之间基于XML数据交换的需求。

    结构约束下获得可扩展标记语言频繁查询模式的方法

    公开(公告)号:CN1707474A

    公开(公告)日:2005-12-14

    申请号:CN200410046524.0

    申请日:2004-06-08

    Applicant: 北京大学

    Abstract: 本发明公开了一种结构约束下获得可扩展标记语言频繁查询模式的方法,包括:处理XML查询遵从的DTD,生成结构约束矩阵;将XML查询模式树转换成用于挖掘频繁模式的XML查询模式扩展树;在XML查询模式扩展树集合中计算频繁1阶扩展子树;从频繁1阶扩展子树出发,对子树进行满足结构约束矩阵的扩展,直到获得所有的频繁查询模式。本发明提出的结构约束下XML频繁查询模式的快速发现方法,能够自动、快速挖掘出海量XML查询中的频繁查询模式,可以直接应用于XML数据集成与交换系统,有效提高XML查询执行的性能。

    一种可扩展标记语言路径查询翻译为结构查询的方法

    公开(公告)号:CN1560763A

    公开(公告)日:2005-01-05

    申请号:CN200410004412.9

    申请日:2004-02-19

    Applicant: 北京大学

    Abstract: 本发明公开了一种可扩展标记语言路径查询XPath翻译为高效结构查询SQL的方法,包括:首先,在pre/post/parent_pre编码之上,定义了针对XPath中不同操作符号的SQL翻译模板,将XPaht翻译成为等价的SQL语句;其次,如果存在DTD,则可以利用DTD的结构信息,来进一步提高所翻译SQL的执行效率,本发明根据DTD构建了DTD树自动机,根据XPath构建了XPath树自动机,在DTD树自动机和XPath树自动机之上定义了乘积操作,根据乘积获取了另一个SQL表达式,估算该表达式和原有表达式的执行代价,选择执行代价低的SQL表达式,结束翻译过程。本发明的技术方案中,一方面利用了pre/post/parent_pre编码,以空间复杂性换取SQL执行的高效性;另一个方面,利用了DTD进行XPath查询进行进一步优化,由此,提高所翻译SQL的执行高效性。

    基于Datalog的分布式环境下大图数据查询方法

    公开(公告)号:CN102799624B

    公开(公告)日:2015-03-04

    申请号:CN201210210245.8

    申请日:2012-06-19

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于Datalog的分布式环境下大图数据查询方法,其步骤包括:1)对用户输入的基于Datalog规则集合的大图查询指令进行语法分析,产生对应的语法树;2)根据语法树,构建以Datalog规则为单位的执行计划。针对每个Datalog规则,构造对应的Map和Reduce执行函数。3)利用等价规则和统计数据,实现规则间优化、规则内优化、操作函数的优化,提高大图查询执行计划的效率。本发明为了简化最终用户编写图查询脚本的代价,提出了扩展的递归DataLog查询,支持用户使用简单的描述性语言来表达对应大图查询。本发明还提出了递归Datalog查询的MapReduce环境执行计划的构建方法,使得Datalog图查询能够在MapReduce框架下执行。

    基于MapReduce的大图上距离连接查询方法

    公开(公告)号:CN102737114B

    公开(公告)日:2014-08-06

    申请号:CN201210157463.X

    申请日:2012-05-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于MapReduce的大图上距离连接查询方法,其步骤包括:1)提取初始化的查询参数:原图、已访问结点、拓展范围和查询结果;2)在hadoop上对原图进行双向拓展,拓展从源结点集合和目标结点集合开始,每次拓展基于代价模型,采用动态阈值剪枝操作,将新拓展的结点加入已访问结点集合;3)继续遍历未完成拓展的剩余结点,直到所有满足拓展范围的结点都完成拓展;4)完成迭代后,记录所述已访问节点集合中目标结点和源结点间路径查询结果,返回查询结果。本发明在MapReduce环境下提出了一种基于代价模型的自适应方法,基于动态阈值进行剪枝的双向搜索算法和Segment索引减少拓展空间和迭代次数,提高任务的执行效率。

    面向可扩展标记语言模式的键约束自动生成方法

    公开(公告)号:CN1296855C

    公开(公告)日:2007-01-24

    申请号:CN200410004379.X

    申请日:2004-02-17

    Applicant: 北京大学

    Abstract: 本发明提供了一种基于关系数据库模式图Schema Diagram生成可扩展标记语言大纲XML Schema的层次描述和键约束的方法,包括:利用关系数据库的键和外键构造数据库的模式图;在扫描模式图过程中建立关系表名、候选码与XML Schema中键约束的选择器XPath(Selector XPath)、域XPath(Field XPath)之间的对应关系,生成关系数据库键约束的XML选择器索引;利用该索引自动生成XML Schema上的键约束,从而完成基于XML数据发布过程中键约束的自动获得。本发明广泛应用于当前网络环境下各应用系统的基于XML的数据发布过程,满足了目前Internet上大量应用系统之间XML数据发布与转换的需求,具有广阔的应用前景。

    基于结构分析的可扩展标记语言键约束验证方法

    公开(公告)号:CN1704932A

    公开(公告)日:2005-12-07

    申请号:CN200410042943.7

    申请日:2004-06-01

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于结构分析的可扩展标记语言键约束验证方法,包括根据输入的待验证的XML文档和该文档需遵从的键约束,抽取XML文档中的键值生成键值文档;根据预设计的键值文档DTD,检查键值文档是否满足键值文档DTD的结构约束,如果满足,则待验证的XML文档满足定义的键约束;否则该待验证的XML文档不满足键约束。本发明可广泛应用于当前网络环境下各应用系统的基于XML的数据交换过程,满足了Internet上各应用系统之间基于XML数据交换的需求,具有广阔的应用前景。

    面向可扩展标记语言模式的键约束自动生成方法

    公开(公告)号:CN1560766A

    公开(公告)日:2005-01-05

    申请号:CN200410004379.X

    申请日:2004-02-17

    Applicant: 北京大学

    Abstract: 本发明提供了一种基于关系数据库模式图Schema Diagram生成可扩展标记语言大纲XML Schema的层次描述和键约束的方法,包括:利用关系数据库的键和外键构造数据库的模式图;在扫描模式图过程中建立关系表名、候选码与XML Schema中键约束的选择器XPath(Selector XPath)、域XPath(Field XPath)之间的对应关系,生成关系数据库键约束的XML选择器索引;利用该索引自动生成XML Schema上的键约束,从而完成基于XML数据发布过程中键约束的自动获得。本发明广泛应用于当前网络环境下各应用系统的基于XML的数据发布过程,满足了目前Internet上大量应用系统之间XML数据发布与转换的需求,具有广阔的应用前景。

    大规模社会网络中的离群点检测方法

    公开(公告)号:CN102799616B

    公开(公告)日:2014-11-05

    申请号:CN201210200045.4

    申请日:2012-06-14

    Applicant: 北京大学

    Abstract: 本发明涉及一种大规模社会网络中的离群点检测方法,其步骤包括:提取待测社会网络数据;根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区;计算各节点的社区离群度因子;提取社区离群度因子最大的n个节点,作为该社会网络的离群点。本发明不需要事先知道数据属于何种分布,能够处理任意分布的社会网络。采用了动态相似性阈值技术,明显降低了输入参数的个数,提升了社区离群点检测的准确性,能够很方便地处理大规模数据集,有良好的应用价值。

    一种云环境中基于分片位图索引的查询方法

    公开(公告)号:CN102722531B

    公开(公告)日:2014-04-16

    申请号:CN201210155253.7

    申请日:2012-05-17

    Applicant: 北京大学

    Abstract: 本发明提出一种云环境中基于分片位图索引的查询方法,1)建立分片位图索引,1.1)对云环境中数据表上的索引属性进行值域划分,生成属性值的全局排序表,全局排序表对元组用设定的规则排序;1.2)根据值域划分结果建立每个数据节点上的指示位图,指示位图记录局部属性值存储情况;1.3)根据云环境构架在各数据节点上建立局部位图索引,完成分片位图索引的创建;2)输入查询条件,主节点根据查询条件建立条件位图,并分发至各个数据节点,条件位图覆盖查询条件所包含所有可能;各数据节点并发执行检索任务,主节点收集各个数据节点的查询结果,并向用户返回各数据节点上查询结果的并集。通过建立分片位图索引可以充分利用了云环境中的可配置的并行计算资源,能够为以比较大小为条件的数据查询请求提供快速响应。

Patent Agency Ranking