-
公开(公告)号:CN114727407A
公开(公告)日:2022-07-08
申请号:CN202210515110.6
申请日:2022-05-12
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种资源分配方法、装置及设备,涉及人工智能技术领域,其中,所述方法包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。通过上述方式,本发明实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。
-
公开(公告)号:CN113467487A
公开(公告)日:2021-10-01
申请号:CN202111035827.2
申请日:2021-09-06
Applicant: 中国科学院自动化研究所
IPC: G05D1/02
Abstract: 本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。
-
公开(公告)号:CN113467487B
公开(公告)日:2021-11-23
申请号:CN202111035827.2
申请日:2021-09-06
Applicant: 中国科学院自动化研究所
IPC: G05D1/02
Abstract: 本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。
-
公开(公告)号:CN114727407B
公开(公告)日:2022-08-26
申请号:CN202210515110.6
申请日:2022-05-12
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种资源分配方法、装置及设备,涉及人工智能技术领域,其中,所述方法包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。通过上述方式,本发明实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。
-
-
-