一种基于策略迭代的贝尔曼方程的硬件实现方法

发明公开

CN115983358A 一种基于策略迭代的贝尔曼方程的硬件实现方法审中-实审

请登陆查看更多内容

专利标题： 一种基于策略迭代的贝尔曼方程的硬件实现方法
申请号： CN202310055769.2

申请日： 2023-01-18
公开(公告)号： CN115983358A

公开(公告)日： 2023-04-18
发明人: 朱云来 , 郭文斌 , 冯哲 , 吴祖恒 , 徐祖雨 , 代月花
申请人： 安徽大学
申请人地址： 安徽省合肥市经济开发区九龙路111号
专利权人： 安徽大学
当前专利权人： 安徽大学
当前专利权人地址： 安徽省合肥市经济开发区九龙路111号
代理机构： 北京凯特来知识产权代理有限公司
代理商 郑立明; 陈亮
优先权： 2022108172424 20220712 CN
主分类号： G06N3/063
IPC分类号： G06N3/063 ; G06F17/11

摘要：

本发明公开了一种基于策略迭代的贝尔曼方程的硬件实现方法，首先输入奖励值到贝尔曼期望方程电路中，求出该奖励值的策略价值；将得到的策略价值输入贝尔曼最优方程电路进行策略迭代求解，求出最优价值；将得到的最优价值映射到由忆阻器阵列组成的策略图谱中，完成每一个状态的最优价值求解，并根据最优价值的大小决定每一个状态的移动方向，达到利用硬件加速贝尔曼方程求解最优价值的目的。该方法能够使用忆阻器阵列乘加的方式将贝尔曼方程硬件化，从而对强化学习硬件系统性能有很大的优化作用。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N3/00	基于生物学模型的计算机系统
G06N3/02	.采用神经网络模型
G06N3/06	..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3/063	...采用电的