通过并行加强来探索未探索的域

    公开(公告)号:CN112840319B

    公开(公告)日:2024-07-23

    申请号:CN201980067097.9

    申请日:2019-10-11

    IPC分类号: G06F9/46

    摘要: 示例实施例描述了一种计算机实现的方法,用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100),该未探索的域(100)用状态‑动作空间(101,102)表示,该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤:接收(510)用表来表示的状态‑动作空间的被指派的分区(200);并且在多个情节期间针对分区(200)内的状态执行(511)动作,其中动作转变状态;并且向被转变的状态授予(512)奖励;并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值;并且更新(514)表。

    通过并行加强来探索未探索的域

    公开(公告)号:CN112840319A

    公开(公告)日:2021-05-25

    申请号:CN201980067097.9

    申请日:2019-10-11

    IPC分类号: G06F9/46

    摘要: 示例实施例描述了一种计算机实现的方法,用于通过基于表的并行加强学习(PRL)算法来探索包括多个代理(110‑114)和状态的未探索的域(100),该未探索的域(100)用状态‑动作空间(101,102)表示,该方法包括由该多个代理中的一个或多个代理(110)执行的以下步骤:接收(510)用表来表示的状态‑动作空间的被指派的分区(200);并且在多个情节期间针对分区(200)内的状态执行(511)动作,其中动作转变状态;并且向被转变的状态授予(512)奖励;并且与域(100)中的该多个代理(111‑114)中的其他代理交换(513)状态‑动作值;并且更新(514)表。