-
公开(公告)号:CN113239472B
公开(公告)日:2021-09-21
申请号:CN202110775732.8
申请日:2021-07-09
Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所
IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08
Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。
-
公开(公告)号:CN113239472A
公开(公告)日:2021-08-10
申请号:CN202110775732.8
申请日:2021-07-09
Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所
IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08
Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。
-
公开(公告)号:CN113837348A
公开(公告)日:2021-12-24
申请号:CN202110858503.2
申请日:2021-07-28
Applicant: 中国科学院自动化研究所
IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822
Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置,包括:将当前环境信息和各个智能体的隐含状态输入到智能体网络,得到智能体网络输出的各个智能体的观测动作价值;观测动作价值用于表征对应智能体当前执行所有动作的预估价值;基于各个智能体的观测动作价值,控制各个智能体执行动作;其中,智能体网络是基于样本环境信息和样本智能体的样本隐含状态,联合自加权网络进行强化学习得到的;自加权网络用于确定所有样本智能体执行动作的联合动作价值;在强化学习过程中,自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能够避免变化环境中智能体数量动态变化对训练过程的影响。
-
公开(公告)号:CN113837348B
公开(公告)日:2024-12-10
申请号:CN202110858503.2
申请日:2021-07-28
Applicant: 中国科学院自动化研究所
IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822
Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置,包括:将当前环境信息和各个智能体的隐含状态输入到智能体网络,得到智能体网络输出的各个智能体的观测动作价值;观测动作价值用于表征对应智能体当前执行所有动作的预估价值;基于各个智能体的观测动作价值,控制各个智能体执行动作;智能体网络是基于样本环境信息和样本智能体的样本隐含状态,联合自加权网络进行强化学习得到的;自加权网络用于确定所有样本智能体执行动作的联合动作价值;在强化学习过程中,自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能避免变化环境中智能体数量动态变化对多智能体控制及训练过程的影响。
-
-
-