一种基于策略迭代的贝尔曼方程的硬件实现方法
摘要:
本发明公开了一种基于策略迭代的贝尔曼方程的硬件实现方法,首先输入奖励值到贝尔曼期望方程电路中,求出该奖励值的策略价值;将得到的策略价值输入贝尔曼最优方程电路进行策略迭代求解,求出最优价值;将得到的最优价值映射到由忆阻器阵列组成的策略图谱中,完成每一个状态的最优价值求解,并根据最优价值的大小决定每一个状态的移动方向,达到利用硬件加速贝尔曼方程求解最优价值的目的。该方法能够使用忆阻器阵列乘加的方式将贝尔曼方程硬件化,从而对强化学习硬件系统性能有很大的优化作用。
0/0