-
公开(公告)号:CN103488637B
公开(公告)日:2016-12-14
申请号:CN201210191968.8
申请日:2012-06-11
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种基于动态社区挖掘进行专家检索的方法,针对动态网络环境,同时利用链接结构和内容信息挖掘社区,将链接结构和内容表达为矩阵形式,综合历史社区划分结果,使用非负矩阵分解方法进行社区划分,并对社区划分代价进行迭代处理,使其结果局部最优化,以使社区结果在反映网络的链接特征的同时,还反映话题、兴趣等语义层面的特征,通过利用社区划分结果和社区话题,进行专家搜索,从而实现不同时刻的专家检索。本发明的方法不仅能反映社区成员、规模的变化,还能反映社区的话题分布及其随时间的变化,从而可以将社区挖掘结果直接专家搜索。
-
公开(公告)号:CN103488638B
公开(公告)日:2016-12-07
申请号:CN201210191976.2
申请日:2012-06-11
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种结果缓存替换的优化方法,属于计算机网络技术领域。本方法为:1)以系统搜索日志中的用户ID为键、用户发起的请求为键值建立一哈希表h2;2)将同一用户ID发起的所有请求进行拼接,得到一字符串,对所有用户的拼接字符串构成的文档集进行话题模型分析,获得话题集合M及关联度;3)计算与某话题相关的搜索请求出现次数与同一时间段内所有请求出现次数的比值,计算该请求的权重贡献值;4)当收到一请求q时,查找匹配的结果缓存并返回和更新h2;如果没有,则在h2中查找对应的键值并与q拼接,计算q的权重贡献值;5)将结果缓存中权重较低的结果项替换出去,并加入新的缓存项。本发明可大大提高缓存命中率的效果。
-
公开(公告)号:CN102722527B
公开(公告)日:2014-08-06
申请号:CN201210153267.5
申请日:2012-05-16
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种支持含有缺失符号的查询请求的全文检索方法,其步骤包括:将文本内容符号化为符号串,并拼接为一个长符号串;对长符号串分别执行BWT转换、[l,m]-skipping-BWT转换、w-ahead-BWT转换以及SET-skipping,w-ahead-BWT转换;基于四种转换的结果构建小波树,并建立C表和FT数组,构成符号轮转索引;对给定的查询请求进行全文匹配,并输出检索结果,所述查询请求可以含有一段或多段连续缺失符号。本发明支持不同的符号化方法,支持含有缺失符号的查询请求,能够满足不同类型的检索需求。
-
公开(公告)号:CN102637182B
公开(公告)日:2014-05-28
申请号:CN201110038103.3
申请日:2011-02-15
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种Web社会网络核心用户信息交互演化分析方法,包括:1)从Web社会网络应用程序获取用户互动信息数据;2)确定核心用户节点;3)根据获取的数据通过增量计算方法建立Web社会应用网络图结构;4)计算所有图结构中核心节点与其他节点之间的hop距离;5)获取到核心节点的hop距离在阈值内的所有节点,根据节点间的hop距离,将阈值内的节点划分为不同群落;6)根据每个群落的权值,计算出当前时间点与核心节点信息交互最密集的群落;7)预测下一时间点与核心节点信息交互的群落。本发明从核心用户节点入手获得信息在不同节点和群落间的传播规律,并通过增量计算使普通计算机也能进行本发明的图结构分析。
-
公开(公告)号:CN102799624A
公开(公告)日:2012-11-28
申请号:CN201210210245.8
申请日:2012-06-19
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于Datalog的分布式环境下大图数据查询方法,其步骤包括:1)对用户输入的基于Datalog规则集合的大图查询指令进行语法分析,产生对应的语法树;2)根据语法树,构建以Datalog规则为单位的执行计划。针对每个Datalog规则,构造对应的Map和Reduce执行函数。3)利用等价规则和统计数据,实现规则间优化、规则内优化、操作函数的优化,提高大图查询执行计划的效率。本发明为了简化最终用户编写图查询脚本的代价,提出了扩展的递归DataLog查询,支持用户使用简单的描述性语言来表达对应大图查询。本发明还提出了递归Datalog查询的MapReduce环境执行计划的构建方法,使得Datalog图查询能够在MapReduce框架下执行。
-
公开(公告)号:CN102722546A
公开(公告)日:2012-10-10
申请号:CN201210167376.2
申请日:2012-05-25
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种在关系数据库环境下图中最短路径的查询方法,其步骤包括:将图存储于关系数据库中,按照该图中边的权重将该图对应的表划分成若干子表;根据查询请求中的源结点与目标结点建立已访问结点表,并初始化需要拓展的子表;采用宽度优先搜索方法对各个结点在选定的子表上进行迭代拓展;迭代拓展终止后,继续在原图的所有边上进行一次补充拓展,得到最短路径。本发明将一个大图划分成多个子图,分别存储在不同的数据库表中,使得查询拓展可以在较小的表上进行,能够获得更好的规模性和查询效率。
-
公开(公告)号:CN101576915B
公开(公告)日:2011-06-08
申请号:CN200910087072.3
申请日:2009-06-18
Applicant: 北京大学
Abstract: 本发明涉及一种分布式B+树索引系统及构建方法,其特征在于:它包括主服务器、事务服务器机群、索引服务器机群和版本控制服务器;事务服务器机群包括多个事务服务器,索引服务器机群包括多台索引服务器;主服务器负责管理META数据,并对索引服务器机群进行负载平衡调度;事务服务器机群负责对分布式文件系统中索引数据访问的事务控制;索引服务器机群负责管理和读写分布式文件系统中的索引数据。本发明提出了一种细粒度、小网络流量的索引事务机制,由于本发明的事务基本操作是基于B+树的键值粒度,事务基本操作在执行时只需要传输几十个字节的B+树索引键值对,因此本发明有效地实现了并发环境下索引数据的事务功能。
-
公开(公告)号:CN1547326A
公开(公告)日:2004-11-17
申请号:CN200310116907.6
申请日:2003-11-28
Applicant: 北京大学
Abstract: 本发明公开了一种XML数据流的压缩方法,包括:接收输入的XML数据流的满足的XML Schema,根据该Schema对XML数据流经过SAX解析单元解析后的事件序列出现的频率和类型进行分析;将输入的XML数据流解析成SAX事件序列,输入到压缩单元;根据Schema分析单元的分析结果,完成对SAX事件序列的压缩,输出压缩数据流。本发明基于XML Schema,通过分析XML Schema,估算元素事件序列的频率,产生压缩编码;首次提出了XML数据流的压缩方法,满足了信息系统之间基于XML数据高速传输与查询处理的需求,支持单遍扫描完成压缩,并且在压缩中保持了XML数据流原有的结构部分和数据部分的顺序,因此,本发明支持部分解压缩数据回答XPath查询。
-
公开(公告)号:CN103488639B
公开(公告)日:2016-12-07
申请号:CN201210192018.7
申请日:2012-06-11
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供一种XML数据的查询方法,其步骤包括:1)采用Native XML方式存储XML数据,其存储结构包括:内节点层,存储XML树的节点,XML元素采用DDE编码方式进行编码;叶节点层,存储XML树叶节点的文本数据;倒排层,存储内节点层的倒排索引;2)根据输入的XPath查询语句,从所述倒排层中取出与所述XPath的节点对应的元素序列,并采用败者树进行归并排序;3)对归并排序后的XML元素按顺序进行入栈和出栈操作,从缓冲区得到查询结果。本发明能够处理带有关键字“OR”和通配符“*”的XPath,并具有很高的效率。
-
公开(公告)号:CN103150404B
公开(公告)日:2016-06-15
申请号:CN201310104904.4
申请日:2013-03-28
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种关系-XML混合数据关键字查询方法。本发明为:1)根据数据库的模式信息从数据库中读取数据,生成元组数据图;数据库为对关系数据和XML数据是逻辑上共同存储,物理上分开存储;2)对关系数据与XML数据进行倒排索引;3)查找输入关键字出现的对应位置;若在某个元组中,则标记该元组为候选节点,然后在元组数据图中查找包含该候选节点的最小生成树;若在某个XML文档中,则将该文档所在元组标记为候选节点,然后在元组数据图中查找包含该候选节点的最小生成树,再在该XML文档中查找包含关键字的最小公共祖先节点;4)返回包含查询关键字结构信息的关系-XML数据查询结果。本发明实现了混合数据的关键字查询。
-
-
-
-
-
-
-
-
-