一种基于忆阻器的强化学习硬件加速方法

    公开(公告)号:CN115456193A

    公开(公告)日:2022-12-09

    申请号:CN202211004818.1

    申请日:2022-08-22

    申请人: 安徽大学

    IPC分类号: G06N20/00 G06F17/16

    摘要: 本发明公开了一种基于忆阻器的强化学习硬件加速方法,涉及忆阻器技术领域,首先按批次,即每个batch生成32条回合路径,推理映射到TiO2忆阻器阵列形成策略图谱,将策略图谱信息按列导入32×32忆阻器阵列,利用阵列并行的矩阵乘加运算得到每一列对应回合的价值,经过WTA电路进行比较,输出32个路径中最大的回合价值,最后与之前batch得到的最大价值进行比较,保留最大的那个价值,反复迭代直到收敛,此方法能够使用忆阻器阵列乘加的方式将强化学习算法迭代过程硬件化,能够减少强化学习任务的迭代次数,减少计算机吞吐量。