Patent search ap:("中国科学院自动化研究所" OR "北京电子工程总体研究所") AND inv:"李伟凡" Page 1

1.

发明授权
一种基于强化学习的导弹制导方法和装置有权

公开(公告)号：CN113239472B

公开(公告)日：2021-09-21

申请号：CN202110775732.8

申请日：2021-07-09

Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所

Inventor： 朱圆恒 , 李伟凡 , 熊华 , 赵冬斌

IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08

Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置，其中方法包括：基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

2.

发明公开
一种基于强化学习的导弹制导方法和装置有权

公开(公告)号：CN113239472A

公开(公告)日：2021-08-10

申请号：CN202110775732.8

申请日：2021-07-09

Applicant: 中国科学院自动化研究所 , 北京电子工程总体研究所

Inventor： 朱圆恒 , 李伟凡 , 熊华 , 赵冬斌

IPC: G06F30/15 , G06F30/27 , G06N3/08 , G06F111/08

Abstract: 本发明提供一种基于强化学习的导弹制导方法和装置，其中方法包括：基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

3.

发明公开
基于强化学习的变化环境多智能体控制方法与装置有权

公开(公告)号：CN113837348A

公开(公告)日：2021-12-24

申请号：CN202110858503.2

申请日：2021-07-28

Applicant: 中国科学院自动化研究所

Inventor： 朱圆恒 , 柴嘉骏 , 李伟凡 , 赵冬斌 , 孙科武 , 丁季时雨 , 董博

IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822

Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置，包括：将当前环境信息和各个智能体的隐含状态输入到智能体网络，得到智能体网络输出的各个智能体的观测动作价值；观测动作价值用于表征对应智能体当前执行所有动作的预估价值；基于各个智能体的观测动作价值，控制各个智能体执行动作；其中，智能体网络是基于样本环境信息和样本智能体的样本隐含状态，联合自加权网络进行强化学习得到的；自加权网络用于确定所有样本智能体执行动作的联合动作价值；在强化学习过程中，自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能够避免变化环境中智能体数量动态变化对训练过程的影响。

4.

发明授权
基于强化学习的变化环境多智能体控制方法与装置有权

公开(公告)号：CN113837348B

公开(公告)日：2024-12-10

申请号：CN202110858503.2

申请日：2021-07-28

Applicant: 中国科学院自动化研究所

Inventor： 朱圆恒 , 柴嘉骏 , 李伟凡 , 赵冬斌 , 孙科武 , 丁季时雨 , 董博

IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822

Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置，包括：将当前环境信息和各个智能体的隐含状态输入到智能体网络，得到智能体网络输出的各个智能体的观测动作价值；观测动作价值用于表征对应智能体当前执行所有动作的预估价值；基于各个智能体的观测动作价值，控制各个智能体执行动作；智能体网络是基于样本环境信息和样本智能体的样本隐含状态，联合自加权网络进行强化学习得到的；自加权网络用于确定所有样本智能体执行动作的联合动作价值；在强化学习过程中，自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能避免变化环境中智能体数量动态变化对多智能体控制及训练过程的影响。

Patent Agency Ranking