-
公开(公告)号:CN104408039A
公开(公告)日:2015-03-11
申请号:CN201410462268.7
申请日:2014-09-06
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30315 , G06F17/30327 , G06F17/30333 , G06F17/30386
Abstract: 本发明公开了一种基于Hilbert曲线与R-tree的HBase多维查询系统的构建及其查询方法,本发明一方面利用Hilbert曲线对多维数据从多维降到一维,另一方面针对HBase上的多维数据建立R树。映射的一维Hilbert曲线的标志符Hilbert ID能够将信息与原始的高维数据ID建立对应关系。通过R树,高维数据的查询可以高效地映射为一维的Hilbert ID集合。从而实现在HBase上多维数据的快捷查询。
-
公开(公告)号:CN102799674B
公开(公告)日:2015-02-18
申请号:CN201210248045.1
申请日:2012-07-17
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种面向大规模不确定物流网络的需求概率查询方法,采用不确定图G来描述不确定物流网络,计算配送量在不确定物流网络中从源节点到汇聚节点被成功配送的概率,具体是不确定图G的需求概率查询,得到物流网络数据的需求概率的查询结果,即配送量在不确定物流网络中从源节点到汇聚节点被成功配送的概率,不断更新需求概率,进行下一次查询;根据计算出的结果,制定物流配送线路进行物流配送。采用本方法来处理物流网络的不确定性,能够提高运输效率减少成本。
-
公开(公告)号:CN103729431A
公开(公告)日:2014-04-16
申请号:CN201310732005.9
申请日:2013-12-26
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30705 , G06F17/30699
Abstract: 本发明一种具有增减量功能的海量微博数据分布式分类装置及方法,属于数据挖掘技术领域,本发明克服了以往的利用极限学习机技术仅能分布式地处理海量微博数据而不能有效地处理微博数据更新的缺陷,良好地解决了针对海量微博数据中数据频繁更新的问题,充分利用了海量微博数据的效用,起到了更好的为应用服务的效果。
-
公开(公告)号:CN103473248A
公开(公告)日:2013-12-25
申请号:CN201210544908.X
申请日:2012-12-17
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明公开了一种路网环境下的连续移动K近邻查询方法,建立路网结点哈希表、路网边的哈希表等;录入路网的结点信息,初始化路网结点的哈希表;录入路网的边的信息;将移动对象插入到路网移动对象哈希表;根据移动对象在路网移动对象哈希表中的位置找到对应的边,更新完成后要判断该移动对象是否为查询对象;更新对应的查询结果。基于内存的哈希表表结构,充分利用了哈希表能够快速实现插入和快速查找操作的特性,提高了索引的建立、移动对象初始化、索引及查询的效率,节省了时间,网络的密集和稀疏对其影响比较小,对稀疏网络的效果也很明显,实用性强,具有较强的推广与应用价值。
-
公开(公告)号:CN102063489B
公开(公告)日:2012-12-19
申请号:CN201010613046.2
申请日:2010-12-29
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于隐含分类信息的模式匹配方法,属于数据库技术领域,包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明限定了属性匹配的应用范围,提高数据交换的质量,相比于传统的Context-Based技术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分类属性;不论源模式中是否存在显示分类属性,本发明中的方法都能从实例数据中提取约束信息,限制属性匹配,提高数据转换质量。
-
公开(公告)号:CN101408901B
公开(公告)日:2010-07-14
申请号:CN200810229043.1
申请日:2008-11-26
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于主题词条的跨类型数据的概率聚类方法,属于数据库领域,包括以下步骤:(1)定义主题词条的类型;将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条;(2)对每类词条分配概率;(3)用概率表示数据主题;(4)构建数据的主题词条概率相似性矩阵M;对步骤(3)中跨类型数据的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值的相似性的概率相加,将任意两个数据的直接相关概率存储在矩阵M中;(5)基于矩阵M构建聚类模型Mc;(6)基于聚类模型Mc的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类,提高了数据聚类的精度,减少了聚类时间。
-
公开(公告)号:CN113626434B
公开(公告)日:2024-09-27
申请号:CN202110890099.7
申请日:2021-08-04
IPC: G06F16/22 , G06F16/2455 , G06F16/2458 , G06F16/27
Abstract: 本发明公开了Gaia集群中面向数据分布特征的维表缓存管理方法及系统,构建了一套从构建到查询再到增量更新的全周期分布式缓存管理机制。包括数据分布特征提取模块和缓存管理模块,缓存管理模块为缓存构建、缓存查询和缓存更新子模块。数据分布特征提取模块从维表数据中抽取数据样本,统计样本数据的p分位点作为全量数据的分布特征。缓存构建子模块,根据统计的p分位点完成路由数组的初始化;利用分段确定方法为每条维表数据确定所属分段;利用索引建立方法为每条维表数据建立索引。缓存查询子模块,采用缓存查询方法,根据流数据记录的关键字从多路平衡跳表中查询相应的维表数据。缓存更新子模块,定义了p个分段跳表之间的平衡调整方法。
-
公开(公告)号:CN110750560B
公开(公告)日:2023-02-03
申请号:CN201911021143.X
申请日:2019-10-25
IPC: G06F16/2453
Abstract: 本发明公开一种优化网络多连接的系统和方法,属于大数据处理技术领域。该系统包括基于数据字典的连接预算模块和逻辑图重构模块,其中基于数据字典的连接预算模块包括等深直方图生成单元和统计信息管理单元,并基于数据字典设计连接预算模型来描述数据分布质量s,用于连接逻辑图重构模块;逻辑图重构模块又分为连接顺序重排单元和DAG重构单元,运用该系统进行网络多连接优化的方法采用了启发式MMAS算法,保证在相对低的时间复杂度内得到近似最优解,大幅降低了多数据集连接计算的时间,解决现有技术中无法自动优化多连接顺序的问题,能够有效地减少程序的执行时间和网络传输、IO吞吐。
-
公开(公告)号:CN112527483B
公开(公告)日:2022-06-10
申请号:CN202011473342.7
申请日:2020-12-15
Abstract: 本发明提供一种Gaia系统中基于数据特征的动态优先级迭代器,涉及分布式大数据计算技术领域。该迭代器包括优先级调度模块、全量迭代计算模块和增量迭代计算模块;优先级调度模块读取数据源的数据作为迭代计算的初始工作集,并在每次迭代任务执行过程中维护一个用于查找和选择数据单元的跳表,以及一个用于保存数据单元对应的状态信息的状态表;并在每次迭代任务开始时按照优先级调整公式来更新状态表,当本次迭代任务所输入的数据单元全部更新完后,确定每个数据单元的优先级;Gaia系统则根据各个数据单元的优先级信息进行迭代计算;全量迭代模块由BulkIterate算子实现迭代计算,增量迭代模块由Delta Itreate算子实现迭代计算。
-
公开(公告)号:CN110825775B
公开(公告)日:2022-02-15
申请号:CN201911067510.X
申请日:2019-11-04
IPC: G06F16/2455 , G06F16/25
Abstract: 本发明公开了一种Gaia系统中支持流数据与批数据交互的数据交换系统,实现了在Gaia的低纬度算子级的流数据与批数据连接,并且可实现对指定数据库的定向支持。为达到上述目的,该系统包括操作符模块、核心算子模块、批数据定义模块、缓存模块以及外部数据接口模块。该系统中其中批数据定义模块、缓存模块、核心算子模块可以分别从辅助工具模块中获取自己需要的工具类;核心算子模块通过调用批数据定义模块获取连接相关信息,并调用外部数据接口模块从不同数据源中获取批数据,调用缓存模块对数据进行缓存操作。操作符模块对核心算子模块和批数据定义模块进行了外部封装,使得Gaia系统可以进行统一调用。
-
-
-
-
-
-
-
-
-