-
公开(公告)号:CN116382599B
公开(公告)日:2023-08-29
申请号:CN202310669715.5
申请日:2023-06-07
Applicant: 之江实验室
Abstract: 本说明书公开了一种面向分布式集群的任务执行方法、装置、介质及设备。所述面向分布式集群的任务执行方法包括:获取样本数据,根据磁盘带宽和本地延迟,以及网络带宽和网络延迟,对样本数据的数量进行划分,将第一样本数量的样本数据存储在各计算节点的本地磁盘,将第二样本数量的样本数据存储在存储节点,针对每个计算节点,将该计算节点的本地磁盘中指定数量的样本数据与其他计算节点的本地磁盘中的样本数据进行交换,得到更新后样本数据,以及,从所述存储节点中读取远端样本数据,根据更新后本地样本数据和远端样本数据,在该计算节点上执行当前训练周期针对目标模型的训练任务。
-
公开(公告)号:CN116610964A
公开(公告)日:2023-08-18
申请号:CN202310893532.1
申请日:2023-07-20
Applicant: 之江实验室
IPC: G06F18/22 , G06F16/332
Abstract: 本申请涉及一种文本相似度匹配方法、装置和计算机设备。所述方法包括:利用大模型服务接口获取到的信息,构建基础问答数据集;对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容;利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集;根据完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型;基于完备问答模型,进行文本相似度匹配。采用本方法能够解决现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
-
公开(公告)号:CN116303974B
公开(公告)日:2023-08-01
申请号:CN202310486966.X
申请日:2023-05-04
Applicant: 之江实验室
IPC: G06F16/332 , G06F40/35 , G06F18/214 , G06N20/20
Abstract: 本申请涉及一种基于目标生成式回应语言模型的回应方法和装置。其中,该方法包括:基于教育设备中的提示数据集,训练得到初始生成式提示语言模型和初始生成式回应语言模型;并利用评分模型对二者的预测结果进行评分;基于对评分值的加权计算结果,通过强化学习和对抗学习进一步训练初始生成式提示语言模型和初始生成式回应语言模型,得到目标生成式回应语言模型;将教育设备采集的待测文本数据输入目标生成式回应语言模型,目标生成式回应语言模型将待测文本数据与对话数据进行拼接,得到相应的回应。采用本方法能生成多样的新提示,并加强生成式提示语言模型和生成式回应语言模型之间的交互,从而进一步改善生成式语言模型的意料外行为问题。
-
公开(公告)号:CN116436962A
公开(公告)日:2023-07-14
申请号:CN202310376290.9
申请日:2023-03-31
Applicant: 之江实验室
IPC: H04L67/2885 , H04L67/10
Abstract: 面向DFS的全局聚合命名空间下跨计算节点的持久性缓存方法,包括:所有计算节点能按需访问存储在宿主计算节点、远端计算节点或数据存储服务器的任意文件;计算节点根据任务需求和元数据服务器给出的文件布局信息,通过策略引擎预设的缓存预取策略,反向使用条带化技术,根据缓存类型需求,将相关文件从数据存储服务器端复制或迁移到相应的多个计算节点本地持久性缓存设备;当缓存在多个计算节点的数据满足预设条件时,通过策略引擎预设的缓存替换或驱逐策略,将对相关计算节点端数据进行替换或驱逐到数据存储服务器端;根据待操作的相关文件是否已经缓存到对应计算节点本地持久性存储器中的情形,协同完成相关操作。
-
公开(公告)号:CN116306856A
公开(公告)日:2023-06-23
申请号:CN202310557259.5
申请日:2023-05-17
Applicant: 之江实验室
Abstract: 本说明书公开了一种基于搜索的深度学习模型部署方法及装置,可以获取深度学习模型所对应的计算图,确定计算图中包括的算子,并确定每个算子匹配的硬件资源,而后,根据各算子匹配的硬件资源,构建搜索空间,从搜索空间中选取出目标样本,并确定目标样本对应的运行时长,以及确定目标样本对应的邻域样本,并确定邻域样本对应的运行时长,若邻域样本对应的运行时长短于目标样本的运行时长,将邻域样本作为重新确定出的目标样本,并继续确定目标样本对应的邻域样本以及对应的运行时长,直到满足预设迭代终止条件为止,按照目标样本所对应的分配方案,对深度学习模型的算子进行硬件资源的分配,以进行部署,本方法可以提高深度学习模型的计算效率。
-
公开(公告)号:CN116258197A
公开(公告)日:2023-06-13
申请号:CN202310545694.6
申请日:2023-05-16
Applicant: 之江实验室
Abstract: 基于参数计算和通信调度的分布式训练加速方法,包括:根据反向传播算法各层梯度之间不存在依赖关系的特点,通过调整梯度计算顺序,优先计算模型靠前层的梯度,从而提早梯度的传输时间,使得下轮该层的前向传播过程能够更早开始;对于梯度传输过程,通过动态枚举梯度拆分或融合阈值,并结合实时运行情况来选择性能最优的方案。还包括一种基于参数计算和通信调度的分布式训练加速系统。本发明增加了计算和通信之间的覆盖度,提升了训练性能,且实现上简单灵活,能够快速适配不同的模型及训练环境。
-
公开(公告)号:CN116167463A
公开(公告)日:2023-05-26
申请号:CN202310461389.9
申请日:2023-04-26
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练的方法、装置、存储介质及电子设备,将目标模型进行拆分,以得到各子模型,根据各个子模型,确定用于部署各个子模型的各计算节点,并在各计算节点上创建各容器,以将各子模型分别部署到所述各容器内。采用样本数据执行模型训练任务,以训练各容器内的部署的子模型。根据各计算节点的负载数据以及各容器对应的运算时长,确定出需要调整容器分布的计算节点,作为目标节点。以部署有子模型的各计算节点中的容器所对应的运算时长之间的偏差位于预设偏差范围内为调整目标,对目标节点中各容器的分布进行调整;基于调整容器分布后的各计算节点,执行目标模型的训练任务。
-
公开(公告)号:CN115248728B
公开(公告)日:2023-02-03
申请号:CN202211148202.1
申请日:2022-09-21
Applicant: 之江实验室
Abstract: 本发明提供一种面向智能计算的分布式训练任务调度方法、系统和装置,系统包括模型性能预测和分解模块、全局GPU资源调度器和各计算节点均配置的本地GPU资源调度器,全局GPU资源调度器在接收到模型性能预测和分解模块发送的子任务请求后,根据各子任务的资源消耗信息及多个计算节点的GPU运行情况,将各子任务分配到匹配的计算节点的GPU进行训练,并构建各子任务之间的通信拓扑,并在各计算节点的GPU训练对应子任务的过程中,监控各计算节点的GPU的计算资源运行情况,及根据所有计算节点的GPU的计算资源运行情况,控制子任务的调度。本发明能够提高计算集群的GPU和网络等资源的利用率,减少子任务训练的等待时间。
-
公开(公告)号:CN115237580A
公开(公告)日:2022-10-25
申请号:CN202211147981.3
申请日:2022-09-21
Applicant: 之江实验室
Abstract: 本发明提供一种面向智能计算的流水并行训练自适应调整系统、方法,系统包括监控模块和调整模块,调整模块在计算节点的计算任务划分不均衡时,根据计算节点的不均衡类型,确定调整策略,并根据调整策略,调整子模型在计算集群中的分配;调整包括以下至少一种:将计算任务划分不均衡的计算节点的至少部分子模型的层由该计算节点迁移至其他计算节点;控制计算任务划分不均衡的计算节点执行CPU‑GPU内存交换或重计算,或者控制计算任务划分不均衡的计算节点取消当前执行的CPU‑GPU内存交换或重计算;对计算集群的网络拓扑结构进行调整。本发明能动态调整子模型在计算集群中的分配。
-
公开(公告)号:CN119918624A
公开(公告)日:2025-05-02
申请号:CN202510404732.5
申请日:2025-04-02
Applicant: 之江实验室
Abstract: 本申请公开了一种模型训练系统、模型训练任务执行方法、装置及介质,模型训练系统中的管理集群可以获取训练集群执行模型训练任务时的实时状态数据,通过该实时状态数据,预测未来设定时间段内训练集群在执行模型训练任务时的状态,管理集群确定与训练集群中包含的各设备对应的各模拟器,并通过这些模拟器,初始化与训练集群对应的虚拟训练集群。管理集群根据预测状态,生成针对虚拟训练集群的若干执行策略,并按照这些执行策略中的至少部分执行策略,通过虚拟训练集群仿真执行该模型训练任务,得到至少部分执行策略对应的性能指标,根据得到的性能指标,确定目标策略,以按照目标策略,执行该模型训练任务,从而有效地提高整个训练集群的效率。
-
-
-
-
-
-
-
-
-