-
公开(公告)号:CN111061565B
公开(公告)日:2023-08-25
申请号:CN201911292796.1
申请日:2019-12-12
Applicant: 湖南大学
Abstract: 本发明公开了一种Spark环境下的两段式流水线任务调度方法及系统。所述方法包括以下阶段:网络空闲阶段任务调度,该阶段为共生任务及等待任务分配CPU资源,当正在运行的任务有共生任务时,在其执行完成后,将其占用的CPU资源分配给其共生任务;否则,在其执行完成后,按照Spark环境优先级的调度将其占用的CPU资源分配给相应等待任务;网络需求阶段任务调度,该阶段为正在运行的任务匹配数据拉取时间大于其剩余完成时间的等待任务作为共生任务,并对共生任务进行调度。所述系统,其包括网络空闲阶段任务调度模块和网络需求阶段任务调度模块。本发明实现流水线作业,能够实现提高CPU资源及网络资源利用率、从而有效地减少了资源的空闲时间和job的完成时间。
-
公开(公告)号:CN111061910B
公开(公告)日:2020-12-15
申请号:CN201911294985.2
申请日:2019-12-16
Applicant: 湖南大学
Abstract: 本发明公开了一种基于HBase和Solr的视频特征数据查询方法,包括以下步骤:服务端接收来自用户的特征数据查询请求,并根据该特征数据查询请求在索引存储集合中进行检索,以得到多个特征数据ID值;服务端根据步骤一得到的多个特征数据ID值在HBase数据库中检索对应的特征数据集合,并将该特征数据集合返回给用户;本发明通过建立配置文件,使用特征数据ID值关联特征数据和索引,从而提高数据检索的效率和准确率,因此,能够解决现有视频监控系统由于特征数据存储时间的拉长和特征数据量的增加,导致无法对这些海量特征数据进行准确查询的技术问题。
-
公开(公告)号:CN110955526B
公开(公告)日:2022-10-21
申请号:CN201911296432.0
申请日:2019-12-16
Applicant: 湖南大学
IPC: G06F9/50
Abstract: 本发明公开了一种用于在分布式异构环境下实现多GPU调度的方法,其根据Java计算任务创建对应的GPU本地计算任务,并通过数据分块和任务分解,将GPU本地任务划分为更细粒度的GPU本地子任务,然后根据数据本地性以及从节点上所有GPU的流资源状态和内存资源状态将GPU本地子任务调度到指定GPU上执行,从而充分平衡各个GPU上的工作负载,降低Spark应用程序的执行时间。本发明能够解决现有分布式异构Spark处理框架中存在的吞吐量低、无法有效利用多个GPU、以及由于缺乏有效的GPU负载均衡策略导致的时间开销大的技术问题。
-
公开(公告)号:CN110955732A
公开(公告)日:2020-04-03
申请号:CN201911294970.6
申请日:2019-12-16
Applicant: 湖南大学
Abstract: 本发明公开了一种用于在Spark环境中实现分区负载均衡的方法,包括:接收用户发送的Spark应用程序,对该Spark应用程序进行解析,以得到表征多个弹性分布式数据集RDD之间关系的RDD图、以及调度阶段的有向无环图DAG,根据DAG图依次确定每两个相邻调度阶段之间的依赖关系,并对得到的所有依赖关系中的宽依赖关系进行编号,设置计数器cnt=1,判断cnt是否大于宽依赖关系的总数,如果不是则对第cnt个宽依赖关系对应的Map端中最后一个RDD中的所有分区中的数据进行采样,以得到表征数据键分布的、每个分区对应的哈希表,将得到的所有分区对应的哈希表进行合并。本发明能够在解决大数据计算中数据倾斜问题的同时,优化计算资源的分配,缩短程序运行时间。
-
公开(公告)号:CN111061910A
公开(公告)日:2020-04-24
申请号:CN201911294985.2
申请日:2019-12-16
Applicant: 湖南大学
Abstract: 本发明公开了一种基于HBase和Solr的视频特征数据查询方法,包括以下步骤:服务端接收来自用户的特征数据查询请求,并根据该特征数据查询请求在索引存储集合中进行检索,以得到多个特征数据ID值;服务端根据步骤一得到的多个特征数据ID值在HBase数据库中检索对应的特征数据集合,并将该特征数据集合返回给用户;本发明通过建立配置文件,使用特征数据ID值关联特征数据和索引,从而提高数据检索的效率和准确率,因此,能够解决现有视频监控系统由于特征数据存储时间的拉长和特征数据量的增加,导致无法对这些海量特征数据进行准确查询的技术问题。
-
公开(公告)号:CN110955526A
公开(公告)日:2020-04-03
申请号:CN201911296432.0
申请日:2019-12-16
Applicant: 湖南大学
IPC: G06F9/50
Abstract: 本发明公开了一种用于在分布式异构环境下实现多GPU调度的方法,其根据Java计算任务创建对应的GPU本地计算任务,并通过数据分块和任务分解,将GPU本地任务划分为更细粒度的GPU本地子任务,然后根据数据本地性以及从节点上所有GPU的流资源状态和内存资源状态将GPU本地子任务调度到指定GPU上执行,从而充分平衡各个GPU上的工作负载,降低Spark应用程序的执行时间。本发明能够解决现有分布式异构Spark处理框架中存在的吞吐量低、无法有效利用多个GPU、以及由于缺乏有效的GPU负载均衡策略导致的时间开销大的技术问题。
-
公开(公告)号:CN110955732B
公开(公告)日:2020-12-01
申请号:CN201911294970.6
申请日:2019-12-16
Applicant: 湖南大学
Abstract: 本发明公开了一种用于在Spark环境中实现分区负载均衡的方法,包括:接收用户发送的Spark应用程序,对该Spark应用程序进行解析,以得到表征多个弹性分布式数据集RDD之间关系的RDD图、以及调度阶段的有向无环图DAG,根据DAG图依次确定每两个相邻调度阶段之间的依赖关系,并对得到的所有依赖关系中的宽依赖关系进行编号,设置计数器cnt=1,判断cnt是否大于宽依赖关系的总数,如果不是则对第cnt个宽依赖关系对应的Map端中最后一个RDD中的所有分区中的数据进行采样,以得到表征数据键分布的、每个分区对应的哈希表,将得到的所有分区对应的哈希表进行合并。本发明能够在解决大数据计算中数据倾斜问题的同时,优化计算资源的分配,缩短程序运行时间。
-
公开(公告)号:CN111061565A
公开(公告)日:2020-04-24
申请号:CN201911292796.1
申请日:2019-12-12
Applicant: 湖南大学
Abstract: 本发明公开了一种Spark环境下的两段式流水线任务调度方法及系统。所述方法包括以下阶段:网络空闲阶段任务调度,该阶段为共生任务及等待任务分配CPU资源,当正在运行的任务有共生任务时,在其执行完成后,将其占用的CPU资源分配给其共生任务;否则,在其执行完成后,按照Spark环境优先级的调度将其占用的CPU资源分配给相应等待任务;网络需求阶段任务调度,该阶段为正在运行的任务匹配数据拉取时间大于其剩余完成时间的等待任务作为共生任务,并对共生任务进行调度。所述系统,其包括网络空闲阶段任务调度模块和网络需求阶段任务调度模块。本发明实现流水线作业,能够实现提高CPU资源及网络资源利用率、从而有效地减少了资源的空闲时间和job的完成时间。
-
-
-
-
-
-
-