-
公开(公告)号:CN112840319B
公开(公告)日:2024-07-23
申请号:CN201980067097.9
申请日:2019-10-11
IPC分类号: G06F9/46
摘要: 示例实施例描述了一种计算机实现的方法,用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100),该未探索的域(100)用状态‑动作空间(101,102)表示,该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤:接收(510)用表来表示的状态‑动作空间的被指派的分区(200);并且在多个情节期间针对分区(200)内的状态执行(511)动作,其中动作转变状态;并且向被转变的状态授予(512)奖励;并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值;并且更新(514)表。
-
公开(公告)号:CN112840319A
公开(公告)日:2021-05-25
申请号:CN201980067097.9
申请日:2019-10-11
IPC分类号: G06F9/46
摘要: 示例实施例描述了一种计算机实现的方法,用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100),该未探索的域(100)用状态‑动作空间(101,102)表示,该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤:接收(510)用表来表示的状态‑动作空间的被指派的分区(200);并且在多个情节期间针对分区(200)内的状态执行(511)动作,其中动作转变状态;并且向被转变的状态授予(512)奖励;并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值;并且更新(514)表。
-