-
公开(公告)号:CN101615193A
公开(公告)日:2009-12-30
申请号:CN200910088677.4
申请日:2009-07-07
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于百科数据提取集成的查询系统,其特征在于:它包括数据提取模块、数据集成模块和数据查询模块;数据提取模块用于从因特网上提取百科网页,定位和初步过滤各类百科网页中的表格,之后进行基于视觉特征的定位和提取;将提取的表格统一转换成行表的形式,将具有相同特征参数的表格归为一类,提取和识别出每类表格的分类信息,将分类信息保存在信息数据库和XML数据库中;数据集成模块对表格进行分类并按类别打分;之后采用集成的方法,将具有相同属性的表格归并到同一个模式库中;对各模式库中的模式信息进行聚类,输出模式聚类和推荐模式;数据查询模块在信息数据库中查找对应的表格信息;输出查询结果和推荐模式。
-
公开(公告)号:CN101257443A
公开(公告)日:2008-09-03
申请号:CN200810057749.4
申请日:2008-02-15
Applicant: 北京大学
Abstract: 本发明公开了一种在车辆自组织网络中基于道路网格的查询方法,支持通过自组织网路实现多跳距离街道情况的信息获取。本发明通过相对固定的道路网格建立查询执行计划,解决自组织网络环境中的车辆动态变化所带来的问题,提高了查询计划执行的稳定性;同时引入了一种表明查询发起者位置移动的控制信息,利用控制信息,来动态调整查询计划;又提出一种基于时间窗口的数据消息收集机制。本发明的查询方法在自组织网络环境中能够适应车辆网络的动态变化,减少了查询过程中的消息传输代价。
-
公开(公告)号:CN100347702C
公开(公告)日:2007-11-07
申请号:CN200410042943.7
申请日:2004-06-01
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于结构分析的可扩展标记语言键约束验证方法,包括根据输入的待验证的XML文档和该文档需遵从的键约束,抽取XML文档中的键值生成键值文档;根据预设计的键值文档DTD,检查键值文档是否满足键值文档DTD的结构约束,如果满足,则待验证的XML文档满足定义的键约束;否则该待验证的XML文档不满足键约束。本发明可应用于当前网络环境下各应用系统的基于XML的数据交换过程,满足了Internet上各应用系统之间基于XML数据交换的需求。
-
公开(公告)号:CN1707474A
公开(公告)日:2005-12-14
申请号:CN200410046524.0
申请日:2004-06-08
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种结构约束下获得可扩展标记语言频繁查询模式的方法,包括:处理XML查询遵从的DTD,生成结构约束矩阵;将XML查询模式树转换成用于挖掘频繁模式的XML查询模式扩展树;在XML查询模式扩展树集合中计算频繁1阶扩展子树;从频繁1阶扩展子树出发,对子树进行满足结构约束矩阵的扩展,直到获得所有的频繁查询模式。本发明提出的结构约束下XML频繁查询模式的快速发现方法,能够自动、快速挖掘出海量XML查询中的频繁查询模式,可以直接应用于XML数据集成与交换系统,有效提高XML查询执行的性能。
-
公开(公告)号:CN1560763A
公开(公告)日:2005-01-05
申请号:CN200410004412.9
申请日:2004-02-19
Applicant: 北京大学
Abstract: 本发明公开了一种可扩展标记语言路径查询XPath翻译为高效结构查询SQL的方法,包括:首先,在pre/post/parent_pre编码之上,定义了针对XPath中不同操作符号的SQL翻译模板,将XPaht翻译成为等价的SQL语句;其次,如果存在DTD,则可以利用DTD的结构信息,来进一步提高所翻译SQL的执行效率,本发明根据DTD构建了DTD树自动机,根据XPath构建了XPath树自动机,在DTD树自动机和XPath树自动机之上定义了乘积操作,根据乘积获取了另一个SQL表达式,估算该表达式和原有表达式的执行代价,选择执行代价低的SQL表达式,结束翻译过程。本发明的技术方案中,一方面利用了pre/post/parent_pre编码,以空间复杂性换取SQL执行的高效性;另一个方面,利用了DTD进行XPath查询进行进一步优化,由此,提高所翻译SQL的执行高效性。
-
公开(公告)号:CN102799616B
公开(公告)日:2014-11-05
申请号:CN201210200045.4
申请日:2012-06-14
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种大规模社会网络中的离群点检测方法,其步骤包括:提取待测社会网络数据;根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区;计算各节点的社区离群度因子;提取社区离群度因子最大的n个节点,作为该社会网络的离群点。本发明不需要事先知道数据属于何种分布,能够处理任意分布的社会网络。采用了动态相似性阈值技术,明显降低了输入参数的个数,提升了社区离群点检测的准确性,能够很方便地处理大规模数据集,有良好的应用价值。
-
公开(公告)号:CN102722531B
公开(公告)日:2014-04-16
申请号:CN201210155253.7
申请日:2012-05-17
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提出一种云环境中基于分片位图索引的查询方法,1)建立分片位图索引,1.1)对云环境中数据表上的索引属性进行值域划分,生成属性值的全局排序表,全局排序表对元组用设定的规则排序;1.2)根据值域划分结果建立每个数据节点上的指示位图,指示位图记录局部属性值存储情况;1.3)根据云环境构架在各数据节点上建立局部位图索引,完成分片位图索引的创建;2)输入查询条件,主节点根据查询条件建立条件位图,并分发至各个数据节点,条件位图覆盖查询条件所包含所有可能;各数据节点并发执行检索任务,主节点收集各个数据节点的查询结果,并向用户返回各数据节点上查询结果的并集。通过建立分片位图索引可以充分利用了云环境中的可配置的并行计算资源,能够为以比较大小为条件的数据查询请求提供快速响应。
-
公开(公告)号:CN102722531A
公开(公告)日:2012-10-10
申请号:CN201210155253.7
申请日:2012-05-17
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提出一种云环境中基于分片位图索引的查询方法,1)建立分片位图索引,1.1)对云环境中数据表上的索引属性进行值域划分,生成属性值的全局排序表,全局排序表对元组用设定的规则排序;1.2)根据值域划分结果建立每个数据节点上的指示位图,指示位图记录局部属性值存储情况;1.3)根据云环境构架在各数据节点上建立局部位图索引,完成分片位图索引的创建;2)输入查询条件,主节点根据查询条件建立条件位图,并分发至各个数据节点,条件位图覆盖查询条件所包含所有可能;各数据节点并发执行检索任务,主节点收集各个数据节点的查询结果,并向用户返回各数据节点上查询结果的并集。通过建立分片位图索引可以充分利用了云环境中的可配置的并行计算资源,能够为以比较大小为条件的数据查询请求提供快速响应。
-
公开(公告)号:CN102637182A
公开(公告)日:2012-08-15
申请号:CN201110038103.3
申请日:2011-02-15
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种Web社会网络核心用户信息交互演化分析方法包括:1)从Web社会网络应用程序获取用户互动信息数据;2)确定核心用户节点;3)根据获取的数据通过增量计算方法建立Web社会应用网络图结构;4)计算所有图结构中核心节点与其他节点之间的hop距离;5)获取到核心节点的hop距离在阈值内的所有节点,根据节点间的hop距离,将阈值内的节点划分为不同群落;6)根据每个群落的权值,计算出当前时间点与核心节点信息交互最密集的群落;7)预测下一时间点与核心节点信息交互的群落。本发明从核心用户节点入手获得信息在不同节点和群落间的传播规律,并通过增量计算使普通计算机也能进行本发明的图结构分析。
-
公开(公告)号:CN101625692B
公开(公告)日:2012-05-23
申请号:CN200910090288.5
申请日:2009-08-04
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种动态脚本网站数据快速收集方法,其特征在于:它包括以下步骤:i)获取Index页面并保存,将Index页面加入待处理队列;ii)判断待处理队列是否为空,若为空则表明抓取完成,退出抓取过程;否则从待处理队列中任意选择一个页面,利用页面相似性得到当前页面的类型,根据训练步骤中提取出的XPath路径特征,确定类型需要触发哪些页面元素上的哪些事件;iii)判断当前页面是否有未触发过的事件,若没有则跳转到步骤ii);否则触发事件,判断当前页面是否变化且变化后的页面为新页面,若没有变化或非新页面则跳转到步骤v);否则继续执行步骤iv);vi)保存新页面并将新页面加入到步骤i)中的待处理队列;v)回退到触发事件前的页面状态,并跳转到步骤iii)。
-
-
-
-
-
-
-
-
-