发明公开
- 专利标题: 一种基于策略迭代的贝尔曼方程的硬件实现方法
-
申请号: CN202310055769.2申请日: 2023-01-18
-
公开(公告)号: CN115983358A公开(公告)日: 2023-04-18
- 发明人: 朱云来 , 郭文斌 , 冯哲 , 吴祖恒 , 徐祖雨 , 代月花
- 申请人: 安徽大学
- 申请人地址: 安徽省合肥市经济开发区九龙路111号
- 专利权人: 安徽大学
- 当前专利权人: 安徽大学
- 当前专利权人地址: 安徽省合肥市经济开发区九龙路111号
- 代理机构: 北京凯特来知识产权代理有限公司
- 代理商 郑立明; 陈亮
- 优先权: 2022108172424 20220712 CN
- 主分类号: G06N3/063
- IPC分类号: G06N3/063 ; G06F17/11
摘要:
本发明公开了一种基于策略迭代的贝尔曼方程的硬件实现方法,首先输入奖励值到贝尔曼期望方程电路中,求出该奖励值的策略价值;将得到的策略价值输入贝尔曼最优方程电路进行策略迭代求解,求出最优价值;将得到的最优价值映射到由忆阻器阵列组成的策略图谱中,完成每一个状态的最优价值求解,并根据最优价值的大小决定每一个状态的移动方向,达到利用硬件加速贝尔曼方程求解最优价值的目的。该方法能够使用忆阻器阵列乘加的方式将贝尔曼方程硬件化,从而对强化学习硬件系统性能有很大的优化作用。