一种支持含有缺失符号的查询请求的全文检索方法

    公开(公告)号:CN102722527B

    公开(公告)日:2014-08-06

    申请号:CN201210153267.5

    申请日:2012-05-16

    Applicant: 北京大学

    Abstract: 本发明提供一种支持含有缺失符号的查询请求的全文检索方法,其步骤包括:将文本内容符号化为符号串,并拼接为一个长符号串;对长符号串分别执行BWT转换、[l,m]-skipping-BWT转换、w-ahead-BWT转换以及SET-skipping,w-ahead-BWT转换;基于四种转换的结果构建小波树,并建立C表和FT数组,构成符号轮转索引;对给定的查询请求进行全文匹配,并输出检索结果,所述查询请求可以含有一段或多段连续缺失符号。本发明支持不同的符号化方法,支持含有缺失符号的查询请求,能够满足不同类型的检索需求。

    基于Datalog的分布式环境下大图数据查询方法

    公开(公告)号:CN102799624A

    公开(公告)日:2012-11-28

    申请号:CN201210210245.8

    申请日:2012-06-19

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于Datalog的分布式环境下大图数据查询方法,其步骤包括:1)对用户输入的基于Datalog规则集合的大图查询指令进行语法分析,产生对应的语法树;2)根据语法树,构建以Datalog规则为单位的执行计划。针对每个Datalog规则,构造对应的Map和Reduce执行函数。3)利用等价规则和统计数据,实现规则间优化、规则内优化、操作函数的优化,提高大图查询执行计划的效率。本发明为了简化最终用户编写图查询脚本的代价,提出了扩展的递归DataLog查询,支持用户使用简单的描述性语言来表达对应大图查询。本发明还提出了递归Datalog查询的MapReduce环境执行计划的构建方法,使得Datalog图查询能够在MapReduce框架下执行。

    关系数据库环境下图中最短路径的查询方法

    公开(公告)号:CN102722546A

    公开(公告)日:2012-10-10

    申请号:CN201210167376.2

    申请日:2012-05-25

    Applicant: 北京大学

    Abstract: 本发明提供一种在关系数据库环境下图中最短路径的查询方法,其步骤包括:将图存储于关系数据库中,按照该图中边的权重将该图对应的表划分成若干子表;根据查询请求中的源结点与目标结点建立已访问结点表,并初始化需要拓展的子表;采用宽度优先搜索方法对各个结点在选定的子表上进行迭代拓展;迭代拓展终止后,继续在原图的所有边上进行一次补充拓展,得到最短路径。本发明将一个大图划分成多个子图,分别存储在不同的数据库表中,使得查询拓展可以在较小的表上进行,能够获得更好的规模性和查询效率。

    可扩展标记语言数据流压缩器及其压缩方法

    公开(公告)号:CN1547326A

    公开(公告)日:2004-11-17

    申请号:CN200310116907.6

    申请日:2003-11-28

    Applicant: 北京大学

    Abstract: 本发明公开了一种XML数据流的压缩方法,包括:接收输入的XML数据流的满足的XML Schema,根据该Schema对XML数据流经过SAX解析单元解析后的事件序列出现的频率和类型进行分析;将输入的XML数据流解析成SAX事件序列,输入到压缩单元;根据Schema分析单元的分析结果,完成对SAX事件序列的压缩,输出压缩数据流。本发明基于XML Schema,通过分析XML Schema,估算元素事件序列的频率,产生压缩编码;首次提出了XML数据流的压缩方法,满足了信息系统之间基于XML数据高速传输与查询处理的需求,支持单遍扫描完成压缩,并且在压缩中保持了XML数据流原有的结构部分和数据部分的顺序,因此,本发明支持部分解压缩数据回答XPath查询。

    关系数据库环境下图中最短路径的查询方法

    公开(公告)号:CN102722546B

    公开(公告)日:2015-07-29

    申请号:CN201210167376.2

    申请日:2012-05-25

    Applicant: 北京大学

    Abstract: 本发明提供一种在关系数据库环境下图中最短路径的查询方法,其步骤包括:将图存储于关系数据库中,按照该图中边的权重将该图对应的表划分成若干子表;根据查询请求中的源结点与目标结点建立已访问结点表,并初始化需要拓展的子表;采用宽度优先搜索方法对各个结点在选定的子表上进行迭代拓展;迭代拓展终止后,继续在原图的所有边上进行一次补充拓展,得到最短路径。本发明将一个大图划分成多个子图,分别存储在不同的数据库表中,使得查询拓展可以在较小的表上进行,能够获得更好的规模性和查询效率。

    基于MapReduce扩展框架的分布式SQL查询方法

    公开(公告)号:CN102799622B

    公开(公告)日:2015-07-15

    申请号:CN201210209080.2

    申请日:2012-06-19

    Applicant: 北京大学

    Abstract: 本发明涉及基于MapReduce扩展框架的分布式SQL查询方法,1)客户端发送查询请求到查询服务器模块QueryServer,所述查询服务器模块包括:SQL查询接口、SLQ解析模块和动态选择模块;2)所述SQL查询接口接收到查询请求,将所述请求发送到SQL解析模块,所述解析模块解析得到查询请求的语义;3)所述动态选择模块根据查询代价模型Cost Model和语义规则对该查询语义进行计算,预测出查询结果需要的存储空间,并选择MapReduce查询方式或内存查询方式;4)当查询结束,将本地查询结果上传至HDFS或数据处理服务器模块Data Processor。本发明基于内存的拓展框架,利用内存处理的方式处理SQL查询,在内存中完成数据处理,提高查询的效率。同时查询服务器模块实现与客户端的交互和查询处理方式的动态选择。

    大规模社会网络中的离群点检测方法

    公开(公告)号:CN102799616A

    公开(公告)日:2012-11-28

    申请号:CN201210200045.4

    申请日:2012-06-14

    Applicant: 北京大学

    Abstract: 本发明涉及一种大规模社会网络中的离群点检测方法,其步骤包括:提取待测社会网络数据;根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区;计算各节点的社区离群度因子;提取社区离群度因子最大的n个节点,作为该社会网络的离群点。本发明不需要事先知道数据属于何种分布,能够处理任意分布的社会网络。采用了动态相似性阈值技术,明显降低了输入参数的个数,提升了社区离群点检测的准确性,能够很方便地处理大规模数据集,有良好的应用价值。

    一种支持含有缺失符号的查询请求的全文检索方法

    公开(公告)号:CN102722527A

    公开(公告)日:2012-10-10

    申请号:CN201210153267.5

    申请日:2012-05-16

    Applicant: 北京大学

    Abstract: 本发明提供一种支持含有缺失符号的查询请求的全文检索方法,其步骤包括:将文本内容符号化为符号串,并拼接为一个长符号串;对长符号串分别执行BWT转换、[l,m]-skipping-BWT转换、w-ahead-BWT转换以及SET-skipping,w-ahead-BWT转换;基于四种转换的结果构建小波树,并建立C表和FT数组,构成符号轮转索引;对给定的查询请求进行全文匹配,并输出检索结果,所述查询请求可以含有一段或多段连续缺失符号。本发明支持不同的符号化方法,支持含有缺失符号的查询请求,能够满足不同类型的检索需求。

    基于MapReduce扩展框架的分布式SQL查询方法

    公开(公告)号:CN102799622A

    公开(公告)日:2012-11-28

    申请号:CN201210209080.2

    申请日:2012-06-19

    Applicant: 北京大学

    Abstract: 本发明涉及基于MapReduce扩展框架的分布式SQL查询方法,1)客户端发送查询请求到查询服务器模块QueryServer,所述查询服务器模块包括:SQL查询接口、SLQ解析模块和动态选择模块;2)所述SQL查询接口接收到查询请求,将所述请求发送到SQL解析模块,所述解析模块解析得到查询请求的语义;3)所述动态选择模块根据查询代价模型Cost Model和语义规则对该查询语义进行计算,预测出查询结果需要的存储空间,并选择MapReduce查询方式或内存查询方式;4)当查询结束,将本地查询结果上传至HDFS或数据处理服务器模块Data Processor。本发明基于内存的拓展框架,利用内存处理的方式处理SQL查询,在内存中完成数据处理,提高查询的效率。同时查询服务器模块实现与客户端的交互和查询处理方式的动态选择。

    基于MapReduce的大图上距离连接查询方法

    公开(公告)号:CN102737114A

    公开(公告)日:2012-10-17

    申请号:CN201210157463.X

    申请日:2012-05-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于MapReduce的大图上距离连接查询方法,其步骤包括:1)提取初始化的查询参数:原图、已访问结点、拓展范围和查询结果;2)在hadoop上对原图进行双向拓展,拓展从源结点集合和目标结点集合开始,每次拓展基于代价模型,采用动态阈值剪枝操作,将新拓展的结点加入已访问结点集合;3)继续遍历未完成拓展的剩余结点,直到所有满足拓展范围的结点都完成拓展;4)完成迭代后,记录所述已访问节点集合中目标结点和源结点间路径查询结果,返回查询结果。本发明在MapReduce环境下提出了一种基于代价模型的自适应方法,基于动态阈值进行剪枝的双向搜索算法和Segment索引减少拓展空间和迭代次数,提高任务的执行效率。

Patent Agency Ranking