通过并行加强来探索未探索的域

发明公开

请登陆查看更多内容

专利标题： 通过并行加强来探索未探索的域
申请号： CN201980067097.9

申请日： 2019-10-11
公开(公告)号： CN112840319A

公开(公告)日： 2021-05-25
发明人: M·克拉埃 , M·卡梅洛 , S·拉德里
申请人： 伊莫克VZW公司 , 安特卫普大学
申请人地址： 比利时鲁汶;
专利权人： 伊莫克VZW公司,安特卫普大学
当前专利权人： 伊莫克VZW公司,安特卫普大学
当前专利权人地址： 比利时鲁汶;
代理机构： 中国贸促会专利商标事务所有限公司
代理商 汪晶晶
优先权： 18200069.5 20181012 EP
国际申请： PCT/EP2019/077563 2019.10.11
国际公布： WO2020/074689 EN 2020.04.16
进入国家日期： 2021-04-12
主分类号： G06F9/46
IPC分类号： G06F9/46

摘要：

示例实施例描述了一种计算机实现的方法，用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100)，该未探索的域(100)用状态‑动作空间(101，102)表示，该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤：接收(510)用表来表示的状态‑动作空间的被指派的分区(200)；并且在多个情节期间针对分区(200)内的状态执行(511)动作，其中动作转变状态；并且向被转变的状态授予(512)奖励；并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值；并且更新(514)表。

公开/授权文献

CN112840319B 通过并行加强来探索未探索的域公开/授权日：2024-07-23

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F9/00	程序控制装置，例如，控制单元（用于外部设备的程序控制入G06F13/10）
G06F9/06	.应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9/46	..多道程序装置