Gaia系统中的面向图迭代作业的运行时间预测系统及方法

    公开(公告)号:CN113627664B

    公开(公告)日:2024-12-10

    申请号:CN202110890134.5

    申请日:2021-08-04

    Abstract: 本发明公开了Gaia系统中的面向图迭代作业的运行时间预测系统及方法。在作业执行前通过抽样执行来快速捕捉当前图迭代算法的离线特征,包括收敛特征和每次迭代的关键输入特征;在作业执行过程中持续捕捉运行时特征,包括作业参数、资源利用情况以及详细的统计数据;以作业间的相似度为作业匹配和最终预测值计算的依据,主要包括通过抽样执行捕捉到的静态相似度以及真实执行捕捉到的动态相似度。匹配算法可通过制定的相似度评价标准来对算法的特定参数进行训练来使得迭代作业能够自动适应各种相似度。本发明是端对端的运行时间预测方法,综合了图迭代作业的离线特征和运行时特征,能够在较低的训练开销下准确地预测分布式图迭代作业的运行时间。

    一种基于Gaia系统的数据分类方法

    公开(公告)号:CN113609361B

    公开(公告)日:2023-11-14

    申请号:CN202110961564.1

    申请日:2021-08-20

    Abstract: 本发明提供一种基于Gaia系统的数据分类方法,所述方法基于超限学习机实现,Gaia系统由于其更新的底层流处理计算架构和多种全局优化与执行优化技术,相比于其他分布式计算系统具有更好的执行效率。在批处理模式下可实现海量吞吐,在流处理模式下可实现极速响应;另外,由于超限学习机是一种单隐层前馈神经网络,相比于其他的学习机具有更快的学习速度;将上述两种优势进行结合,可使得本发明实现更高效率的数据分类。再者通过构建的初始数据集UCollection自行判断判定启动批处理环境或流处理环境,用户在使用该学习机进行数据分类时可不用关心数据的类型与来源,只需关注对数据的处理过程即可,为用户的使用带来了极大的便利。

    一种基于受限恢复的图迭代器及方法

    公开(公告)号:CN110750385B

    公开(公告)日:2022-09-09

    申请号:CN201911021201.9

    申请日:2019-10-25

    Abstract: 本发明公开一种基于受限恢复的图迭代器及方法,属于分布式迭代计算技术领域。该迭代器采用分布式图计算算法的join‑GroupBy‑Union‑aggregation模式将图计算转换操作中的宽依赖转化为窄依赖,并对部分数据进行备份,从而使得只需恢复故障节点而不需要完全将整个计算回退到最近检查点保存的状态;在故障节点恢复时采用所有健康节点来并行恢复,进一步加快了故障恢复的速度;图迭代中在迭代尾部添加检查点的非阻塞检查点模型,加速了检查点的写入速度,并且在尾部检查点添加了迭代感知器,使得仅在当前迭代中的检查点完成后才启动下一个迭代,有助于在迭代图处理期间协调检查点的创建。

    一种基于位置的社交网络中Top-k区域用户文本数据推荐方法

    公开(公告)号:CN107145545B

    公开(公告)日:2021-01-05

    申请号:CN201710281672.8

    申请日:2017-04-18

    Applicant: 东北大学

    Abstract: 本发明公开了一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法,包括:获取需求用户的地理位置,根据需求用户输入的需求,对社交网络中的文本数据进行分词处理,获取与需求用户的需求相匹配的关键词组;根据所获取的关键词组,建立索引树DLIR‑Tree,所述索引树DLIR‑Tree的每个节点包含一系列的社交网络文本的发送用户;根据需求用户的需求、地理位置及区域半径查询索引树DLIR‑Tree,得到相匹配的文本数据;对所获取的文本数据与关键词组进行相似度计算处理,得到过滤后的文本数据;根据过滤后的文本数据,进行综合评分,并根据综合评分完成Top‑k区域用户文本数据推荐。通过信息的全面性和多样性来实现现实社会的真实情况,从而使得推荐信息准确率得到提高。

    面向Storm连续范围查询全局负载均衡的分组方法及查询方法

    公开(公告)号:CN107357659B

    公开(公告)日:2020-09-29

    申请号:CN201710536098.6

    申请日:2017-07-04

    Applicant: 东北大学

    Abstract: 本发明公开了一种面向Storm连续范围查询全局负载均衡的分组方法及查询方法,对网格索引下的连续范围查询,结合范围查询语义,利用Redis存储并负责更新网格内移动对象数量,将查询范围内的移动对象数量作为评估代价,按照查询代价将范围查询任务分到相应的组,同一个组内的范围查询任务轮询地分发到下游worker,轮询计数器由Redis维护,实现全局分组轮询的分组策略,能够根据分组策略有效地提高了系统负载均衡度,从而提高了系统的资源利用率。

    一种Gaia系统中支持流数据与批数据交互的数据交换系统

    公开(公告)号:CN110825775A

    公开(公告)日:2020-02-21

    申请号:CN201911067510.X

    申请日:2019-11-04

    Abstract: 本发明公开了一种Gaia系统中支持流数据与批数据交互的数据交换系统,实现了在Gaia的低纬度算子级的流数据与批数据连接,并且可实现对指定数据库的定向支持。为达到上述目的,该系统包括操作符模块、核心算子模块、批数据定义模块、缓存模块以及外部数据接口模块。该系统中其中批数据定义模块、缓存模块、核心算子模块可以分别从辅助工具模块中获取自己需要的工具类;核心算子模块通过调用批数据定义模块获取连接相关信息,并调用外部数据接口模块从不同数据源中获取批数据,调用缓存模块对数据进行缓存操作。操作符模块对核心算子模块和批数据定义模块进行了外部封装,使得Gaia系统可以进行统一调用。

    一种自适应任务调度器及方法
    7.
    发明公开

    公开(公告)号:CN110764912A

    公开(公告)日:2020-02-07

    申请号:CN201911021198.0

    申请日:2019-10-25

    Abstract: 本发明公开一种自适应任务调度器及方法,属于分布式流处理系统负载均衡调度技术领域,该调度器主要包括性能监控数据采集模块、平滑加权轮询任务调度模块以及基于蚁群算法的任务调度模块,采用本发明的自适应任务调度器进行任务调度的方法在任务运行初始阶段,采用平滑加权轮询任务调度算法,根据节点的权重分配任务,在保证选中次数不变的情况下,使得节点不被连续选中;当集群的负载超过设定阈值的时候,为避免拖延任务集合的整体完成时间,使用基于蚁群算法的负载均衡算法在一定的迭代次数内计算出最优的任务分配方案,待集群资源降低到设定阈值下时候,继续采用平滑加权轮询算法。

    一种基于直接区分序列挖掘的不确定数据分类方法

    公开(公告)号:CN109447138A

    公开(公告)日:2019-03-08

    申请号:CN201811207644.2

    申请日:2018-10-17

    Applicant: 东北大学

    Abstract: 本发明公开了一种基于直接区分序列挖掘的不确定数据分类方法,对不确定数据集UTD,首先初始化类标签,给出类标签集;在类标签集下,基于给定的信息增益阈值导出最小支持度阈值:采用模式增长策略进行子序列枚举,生成模式候选x,挖掘其中的区分序列,并采用削减策略,生成最终的区分序列结果集Rs;再对区分序列结果集Rs检查,利用闭序列检测算法判断Rs中的每个候选区分序列是否为概率频繁闭序列;若是概率频繁闭序列,则将满足条件的区分序列加入结果集RsTmp;最后结合基于规则的分类方法或支持向量机已有的成熟数据分类方法,完成数据分类。本发明作为不确定数据集上区分模式挖掘补充,显著提高效率,结果集更加简洁。

    面向大规模高维序列数据的交互特征并行选择方法

    公开(公告)号:CN108897990A

    公开(公告)日:2018-11-27

    申请号:CN201810575946.9

    申请日:2018-06-06

    Applicant: 东北大学

    Abstract: 本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维序列数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的序列数据;将与目标类相关的序列数据执行细粒度的特征过滤;以g为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。

    一种利用历史GPS数据进行地图匹配的方法

    公开(公告)号:CN104330089B

    公开(公告)日:2017-12-29

    申请号:CN201410649530.9

    申请日:2014-11-17

    Applicant: 东北大学

    Abstract: 本发明公开了一种利用历史GPS数据进行地图匹配的方法,将历史GPS点记录按车辆ID、记录时间、坐标区域组织成轨迹形式,并将轨迹转换成KML文件;将对应区域的路网数据裁剪出来并转换成KML格式文件;将得到的KML文件叠加在一起,利用标记方法为轨迹中的每一个GPS点标记其所在路段ID,此部分标记数据记为数据集A;只需为其补充方向角信息即可作为训练数据,所得标记数据记为数据集B;将得到的数据集A和第四步得到的数据集B合并作为ELM算法的训练数据集,选定部分与数据集A不相交的历史数据集作为测试数据,用寻参算法寻找ELM参数,直至预测精度最高,此时对应的ELM模型即为该区域内的地图匹配模型。

Patent Agency Ranking