通过并行加强来探索未探索的域
摘要:
示例实施例描述了一种计算机实现的方法,用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100),该未探索的域(100)用状态‑动作空间(101,102)表示,该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤:接收(510)用表来表示的状态‑动作空间的被指派的分区(200);并且在多个情节期间针对分区(200)内的状态执行(511)动作,其中动作转变状态;并且向被转变的状态授予(512)奖励;并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值;并且更新(514)表。
公开/授权文献
0/0