发明公开
- 专利标题: 多代理强化学习合作任务场景下的代理间交换知识的方法
-
申请号: CN201911207987.3申请日: 2019-11-30
-
公开(公告)号: CN111178496A公开(公告)日: 2020-05-19
- 发明人: 谭哲越 , 尹建伟 , 尚永衡 , 张鹿鸣 , 李莹 , 邓水光
- 申请人: 浙江大学
- 申请人地址: 浙江省杭州市西湖区余杭塘路866号
- 专利权人: 浙江大学
- 当前专利权人: 浙江大学
- 当前专利权人地址: 浙江省杭州市西湖区余杭塘路866号
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 林松海
- 主分类号: G06N3/04
- IPC分类号: G06N3/04 ; G06N3/08
摘要:
本发明公开了一种多代理强化学习合作任务场景下的代理间交换知识的方法,包括:每个代理独立观测环境,使用神经网络将环境进行编码,提取相关的特征向量;所述代理将各自的特征向量交由中心站(使用循环神经网络实现)进行整合,所述中心站为各代理生成新的知识编码并进行分发;所述代理接收到新的知识,整合旧有的环境特征向量,然后输入神经网络策略进行决策;上述所有神经网络的参数学习是端到端进行的。该方法能够对多个代理所观测的知识进行整合,帮助多代理系统在合作任务上学习到更好的策略。其中,代理的数目不受限制。