-
公开(公告)号:CN115242877B
公开(公告)日:2023-01-24
申请号:CN202211148298.1
申请日:2022-09-21
Applicant: 之江实验室
IPC: H04L67/60 , H04L67/10 , H04L67/2895 , H04L67/06
Abstract: 本发明公开了面向多K8s集群的Spark协同计算、作业方法及装置,针对目前多K8s集群大多采用联邦集群的模式,而Spark自身的调度和优化的方法不能跨域实现的问题,通过实现跨域协同中心,将多K8s集群设置为主集群和从集群,主集群负责创建Spark的Driver容器和Pod,从集群负责创建Spark的Executor容器和Pod。在创建容器之后,通过协同中心汇聚地址信息和访问凭证,在主集群和从集群之间建立直联的隧道,并通过隧道实现从集群中的容器向Driver注册并持续发送心跳报文。Driver在注册完成之后,可以通过隧道下发执行任务,并通过窄/宽等不同的数据依赖关系,实现在不同集群的最优调度。
-
公开(公告)号:CN115242877A
公开(公告)日:2022-10-25
申请号:CN202211148298.1
申请日:2022-09-21
Applicant: 之江实验室
IPC: H04L67/60 , H04L67/10 , H04L67/2895 , H04L67/06
Abstract: 本发明公开了面向多K8s集群的Spark协同计算、作业方法及装置,针对目前多K8s集群大多采用联邦集群的模式,而Spark自身的调度和优化的方法不能跨域实现的问题,通过实现跨域协同中心,将多K8s集群设置为主集群和从集群,主集群负责创建Spark的Driver容器和Pod,从集群负责创建Spark的Executor容器和Pod。在创建容器之后,通过协同中心汇聚地址信息和访问凭证,在主集群和从集群之间建立直联的隧道,并通过隧道实现从集群中的容器向Driver注册并持续发送心跳报文。Driver在注册完成之后,可以通过隧道下发执行任务,并通过窄/宽等不同的数据依赖关系,实现在不同集群的最优调度。
-
公开(公告)号:CN118036668A
公开(公告)日:2024-05-14
申请号:CN202410443128.9
申请日:2024-04-12
Applicant: 之江实验室
IPC: G06N3/0455 , G06N3/08 , G06N5/04
Abstract: 本说明书公开了一种面向GPT模型的综合评测方法,获取待测GPT模型,确定所述待测GPT模型的训练推理环境,根据所述训练推理环境,确定所述待测GPT模型的理论性能,利用所述待测GPT模型执行各测试任务,根据所述待测GPT模型执行各测试任务的执行过程以及所述理论性能,确定所述待测GPT模型执行各测试任务时的执行性能,并,根据所述待测GPT模型执行各测试任务的推理结果,确定所述待测GPT模型的推理能力,根据所述执行性能以及所述推理能力,确定所述待测GPT模型的测试结果,可使用户在不进行模型训练的情况下,对不同的GPT模型的性能与能力拥有更清晰、直观的了解,方便用户选择GPT模型以满足自身需要。
-
公开(公告)号:CN117891600A
公开(公告)日:2024-04-16
申请号:CN202410044115.4
申请日:2024-01-11
Applicant: 之江实验室
Abstract: 本说明书公开了一种任务调度的方法、装置、存储介质及电子设备,包括:确定待执行任务,并对待执行任务进行拆分,得到各子任务。根据各子任务,生成子任务队列。采用预设的初始调度方法,将子任务队列中的各子任务调度到对应的处理器上执行。在各处理器执行各子任务的过程中,实时确定各处理器的剩余资源,并针对每个处理器,当该处理器满足指定条件时,将已调度给其他处理器但尚未执行的子任务调度到该处理器上执行,从而避免空闲处理器长时间的等待,造成资源的浪费,以及避免堵塞处理器中的子任务长时间的等待。同时,提高处理器的使用率,加快待执行任务的执行速度,提高执行效率。
-
公开(公告)号:CN117010485A
公开(公告)日:2023-11-07
申请号:CN202311293177.0
申请日:2023-10-08
Applicant: 之江实验室
IPC: G06N3/098 , H04L67/1001 , G06F9/50
Abstract: 本说明书公开了一种边缘场景下的分布式模型训练系统及梯度规约方法,在系统中设置有用于根据自身存储的训练样本确定第一梯度的边缘设备,以及接收各边缘设备的梯度并共享的边缘服务器,在模型迭代过程中,由边缘设备确定自身梯度,并将自身梯度发送给边缘服务器,边缘服务器根据接收到的第一梯度确定局部梯度,并基于局部梯度确定总梯度,以根据确定出的总梯度执行模型训练任务。该模型训练系统在各边缘设备的网络情况各不相同的情况下,可通过与各边缘设备连接的边缘服务器先确定局部梯度,再通过指定网络确定总梯度,并根据确定出的总梯度训练模型,保证了模型训练效率。
-
公开(公告)号:CN115249315A
公开(公告)日:2022-10-28
申请号:CN202211148079.3
申请日:2022-09-21
Applicant: 之江实验室
IPC: G06V10/764 , G06N20/00 , G06F9/48
Abstract: 本发明公开了面向异构计算设备的深度学习图像分类方法及装置,将深度学习模型建模为一个有向无环图,有向无环图的节点表深度学习模型的算子,节点之间的有向边代表深度学习模型算子间的数据传输;根据算子分别在各异构计算设备上的处理时间为节点赋值,根据算子间数据在两个计算设备间的传输时间为节点之间的有向边赋值;将每个节点之间的有向边替换为新的节点,并增加两条有向边,保持有向无环图的拓扑结构,用原有向边的权重为新的节点赋值;对算子的内存占用、设备的内存限制、算子在设备上的执行顺序、设备与设备间的数据传输、设备与设备间的数据传输顺序建模,模型的目标函数是模型的端到端推理时延,从而得到最小时延的模型。
-
公开(公告)号:CN117032999A
公开(公告)日:2023-11-10
申请号:CN202311298504.1
申请日:2023-10-09
Applicant: 之江实验室
IPC: G06F9/50
Abstract: 本说明书公开了一种基于异步运行时的CPU‑GPU协同调度方法及装置,确定待执行任务,将所述待执行任务分解成包含若干子任务的子任务队列,针对每个子任务,根据执行该子任务所需的计算资源类型,确定用于执行该子任务的处理器类型,当要执行该子任务时,将该子任务调度至与该子任务的处理器类型对应的处理器执行。该方法提供的协同调度方法,能够将待执行子任务分解成子任务队列,并将队列中获得的待执行子任务合理的调度到CPU和GPU处理器上执行,通过避免和减少CPU、GPU的空闲时间,做到高效地利用CPU和GPU协同计算资源,获得对整体计算资源的更高利用效能,以解决现有技术中存在的CPU、GPU计算资源空闲率高,但资源占用时间长的问题。
-
公开(公告)号:CN116185596B
公开(公告)日:2023-08-01
申请号:CN202310448223.3
申请日:2023-04-24
Applicant: 之江实验室
Abstract: 本说明书公开了提升广域多集群分布式系统执行任务效率的方法及装置,在广域多集群分布式系统的各子队列中确定待执行任务,再确定该待执行任务的时延、执行该待执行任务的目标集群及该待执行任务所需的资源所在的集群,最后,根据时延将所需的资源调度至目标集群。在广域多集群分布式系统中,由于集群数量较多,各集群之间的物理距离较远,执行分布式任务时,会存在各种时延,降低了执行任务的效率,因此,本方法通过确定广域多集群分布式系统中待执行任务的时延,在执行当前任务的同时,根据该时延将执行该任务的数据提前调度到目标集群,在执行待执行任务时,不再需要等待所需数据的调度,提高了处理广域多集群分布式任务的效率。
-
公开(公告)号:CN116302457A
公开(公告)日:2023-06-23
申请号:CN202310598352.0
申请日:2023-05-25
Applicant: 之江实验室
Abstract: 本说明书公开了一种云原生工作流引擎实现方法、系统、介质及电子设备,方法应用于多集群,包括:先根据用户输入的待执行任务的任务文件,确定待执行任务的调度图,并确定子任务队列。之后,针对子任务队列中的每一个子任务,从多集群中,确定该子任务的调度集群。在执行该子任务时,确定多集群中该子任务的调度集群的资源信息,并根据资源信息以及预设的负载条件,从满足负载条件的调度集群中确定指定集群,并将该子任务发送给指定集群,以使指定集群执行该子任务。当各子任务执行结束时,确定待执行任务的执行结果。使得不同的子任务可以由不同的集群执行,可以更好地执行复杂的、大规模的工作流任务,提高执行速率。
-
公开(公告)号:CN116185596A
公开(公告)日:2023-05-30
申请号:CN202310448223.3
申请日:2023-04-24
Applicant: 之江实验室
Abstract: 本说明书公开了提升广域多集群分布式系统执行任务效率的方法及装置,在广域多集群分布式系统的各子队列中确定待执行任务,再确定该待执行任务的时延、执行该待执行任务的目标集群及该待执行任务所需的资源所在的集群,最后,根据时延将所需的资源调度至目标集群。在广域多集群分布式系统中,由于集群数量较多,各集群之间的物理距离较远,执行分布式任务时,会存在各种时延,降低了执行任务的效率,因此,本方法通过确定广域多集群分布式系统中待执行任务的时延,在执行当前任务的同时,根据该时延将执行该任务的数据提前调度到目标集群,在执行待执行任务时,不再需要等待所需数据的调度,提高了处理广域多集群分布式任务的效率。
-
-
-
-
-
-
-
-
-