专利检索 ap:("伊莫克VZW公司" OR "安特卫普大学") AND inv:"M·克拉埃" 第 1 页

1.

发明授权
通过并行加强来探索未探索的域有权

公开(公告)号：CN112840319B

公开(公告)日：2024-07-23

申请号：CN201980067097.9

申请日：2019-10-11

申请人： 伊莫克VZW公司 , 安特卫普大学

发明人： M·克拉埃 , M·卡梅洛 , S·拉德里

IPC分类号： G06F9/46

摘要： 示例实施例描述了一种计算机实现的方法，用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100)，该未探索的域(100)用状态‑动作空间(101，102)表示，该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤：接收(510)用表来表示的状态‑动作空间的被指派的分区(200)；并且在多个情节期间针对分区(200)内的状态执行(511)动作，其中动作转变状态；并且向被转变的状态授予(512)奖励；并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值；并且更新(514)表。

2.

发明公开
通过并行加强来探索未探索的域有权

公开(公告)号：CN112840319A

公开(公告)日：2021-05-25

申请号：CN201980067097.9

申请日：2019-10-11

申请人： 伊莫克VZW公司 , 安特卫普大学

发明人： M·克拉埃 , M·卡梅洛 , S·拉德里

IPC分类号： G06F9/46

摘要： 示例实施例描述了一种计算机实现的方法，用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100)，该未探索的域(100)用状态‑动作空间(101，102)表示，该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤：接收(510)用表来表示的状态‑动作空间的被指派的分区(200)；并且在多个情节期间针对分区(200)内的状态执行(511)动作，其中动作转变状态；并且向被转变的状态授予(512)奖励；并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值；并且更新(514)表。