一种多用户GPU集群的深度学习任务调度方法

    公开(公告)号:CN118093208A

    公开(公告)日:2024-05-28

    申请号:CN202410510424.6

    申请日:2024-04-26

    Abstract: 本发明公开了一种多用户GPU集群的深度学习任务调度方法,包括:构建深度学习任务对象,并将对应的深度学习任务发射到集群中;获取每个已发射任务的状态,并根据调度器的信号或任务本身状态的变化修改对应的任务状态;获取所述集群中的资源状态,并根据所述集群的反馈信息确定每个已发射任务对应的资源占用情况;根据每个已发射任务对应的资源占用情况和任务状态,利用短任务优先的资源共享策略对待分配任务进行资源分配;本发明依靠短任务优先的资源共享策略,在缓解任务资源饥饿问题的同时,降低了整体的任务完成时间,提高了深度学习任务的调度效率。

    一种多智能体协同强化学习方法、终端及存储介质

    公开(公告)号:CN116226662B

    公开(公告)日:2024-02-09

    申请号:CN202310012741.0

    申请日:2023-01-05

    Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

    一种多智能体协同强化学习方法、终端及存储介质

    公开(公告)号:CN116226662A

    公开(公告)日:2023-06-06

    申请号:CN202310012741.0

    申请日:2023-01-05

    Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

    一种细粒度专家行为模仿学习方法、装置、介质及终端

    公开(公告)号:CN115688858A

    公开(公告)日:2023-02-03

    申请号:CN202211285500.5

    申请日:2022-10-20

    Abstract: 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。

    一种细粒度专家行为模仿学习方法、装置、介质及终端

    公开(公告)号:CN115688858B

    公开(公告)日:2024-02-09

    申请号:CN202211285500.5

    申请日:2022-10-20

    Abstract: 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。

    一种电缆屏蔽层与壳体的钎焊方法

    公开(公告)号:CN102350552A

    公开(公告)日:2012-02-15

    申请号:CN201110277933.1

    申请日:2011-09-19

    Abstract: 本发明公开了一种电缆屏蔽层与壳体的钎焊方法,所述壳体两端设置有分线孔,所述电缆从所述分线孔中穿出,所述钎焊方法包括缠绕步骤:在所述电缆屏蔽层上与所述分线孔相对的部位缠绕钎料丝;固定步骤:将所述电缆、所述壳体和所述钎料丝用卡具固定;加热步骤:将所述钎焊部位放置感应线圈内;再用感应加热设备对所述焊接部位加热;冷却步骤:停止加热至所述焊接部位冷却。本发明可以实现壳体双端接头的一次成型、形态均匀稳定,易于保证钎焊质量,又可以满足高效、自动化生产需求。

    基于改进联邦学习的数据分类方法、系统及相关设备

    公开(公告)号:CN116503642A

    公开(公告)日:2023-07-28

    申请号:CN202310269638.4

    申请日:2023-03-15

    Abstract: 本发明公开了一种基于改进联邦学习的数据分类方法、系统及相关设备,方法包括:目标客户端根据预设的改进联邦学习算法对其对应的待训练的数据分类模型进行模型迭代训练,获得对应的已训练的数据分类模型,目标客户端根据预设的改进联邦学习算法进行一轮迭代时,基于全局特征提取器模型参数、全局分类器模型参数和本地分类器模型参数对待训练的数据分类模型的模型参数进行调整,全局特征提取器模型参数和全局分类器模型参数由目标客户端从服务器获取,本地分类器模型参数由目标客户端从本地存储的数据获取;目标客户端获取待分类数据,通过对应的已训练的数据分类模型进行分类获取待分类数据对应的目标类别。本发明有利于提高数据分类的准确性。

Patent Agency Ranking