Patent search ap:("中国科学院自动化研究所") AND inv:"丁季时雨" Page 1

1.

发明公开
基于强化学习的变化环境多智能体控制方法与装置有权

公开(公告)号：CN113837348A

公开(公告)日：2021-12-24

申请号：CN202110858503.2

申请日：2021-07-28

Applicant: 中国科学院自动化研究所

Inventor： 朱圆恒 , 柴嘉骏 , 李伟凡 , 赵冬斌 , 孙科武 , 丁季时雨 , 董博

IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822

Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置，包括：将当前环境信息和各个智能体的隐含状态输入到智能体网络，得到智能体网络输出的各个智能体的观测动作价值；观测动作价值用于表征对应智能体当前执行所有动作的预估价值；基于各个智能体的观测动作价值，控制各个智能体执行动作；其中，智能体网络是基于样本环境信息和样本智能体的样本隐含状态，联合自加权网络进行强化学习得到的；自加权网络用于确定所有样本智能体执行动作的联合动作价值；在强化学习过程中，自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能够避免变化环境中智能体数量动态变化对训练过程的影响。

2.

发明授权
基于强化学习的变化环境多智能体控制方法与装置有权

公开(公告)号：CN113837348B

公开(公告)日：2024-12-10

申请号：CN202110858503.2

申请日：2021-07-28

Applicant: 中国科学院自动化研究所

Inventor： 朱圆恒 , 柴嘉骏 , 李伟凡 , 赵冬斌 , 孙科武 , 丁季时雨 , 董博

IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822

Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置，包括：将当前环境信息和各个智能体的隐含状态输入到智能体网络，得到智能体网络输出的各个智能体的观测动作价值；观测动作价值用于表征对应智能体当前执行所有动作的预估价值；基于各个智能体的观测动作价值，控制各个智能体执行动作；智能体网络是基于样本环境信息和样本智能体的样本隐含状态，联合自加权网络进行强化学习得到的；自加权网络用于确定所有样本智能体执行动作的联合动作价值；在强化学习过程中，自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能避免变化环境中智能体数量动态变化对多智能体控制及训练过程的影响。

Patent Agency Ranking