一种基于深度强化学习的自适应交通灯控制方法

    公开(公告)号:CN116311979B

    公开(公告)日:2024-08-23

    申请号:CN202310235071.9

    申请日:2023-03-13

    Inventor: 孔燕 曹俊豪

    Abstract: 本发明公开了一种基于深度强化学习的自适应交通灯控制方法,将交通数据集和车流数据集导入Dueling Actor‑Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;所述Dueling Actor‑Critic深度强化学习基于自适应ε‑greedy算法建立,ε值在整个执行过程不断变化,使其更具有探索性,最终目标是为了获得最优动作并控制交通灯时长,避免了陷入局部最优的问题。

    一种基于深度强化学习的自适应交通灯控制方法

    公开(公告)号:CN116311979A

    公开(公告)日:2023-06-23

    申请号:CN202310235071.9

    申请日:2023-03-13

    Inventor: 孔燕 曹俊豪

    Abstract: 本发明公开了一种基于深度强化学习的自适应交通灯控制方法,将交通数据集和车流数据集导入Dueling Actor‑Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;所述Dueling Actor‑Critic深度强化学习基于自适应ε‑greedy算法建立,ε值在整个执行过程不断变化,使其更具有探索性,最终目标是为了获得最优动作并控制交通灯时长,避免了陷入局部最优的问题。

    一种基于epsilon-greedy的深度强化学习动态epsilon的方法

    公开(公告)号:CN114595818A

    公开(公告)日:2022-06-07

    申请号:CN202210316971.1

    申请日:2022-03-29

    Inventor: 孔燕 曹俊豪

    Abstract: 本发明公开了一种基于epsilon‑greedy的深度强化学习动态epsilon的方法。涉及探索与利用困境领域,步骤:对多臂老虎机的数据进行预处理;根据即时奖励rt+1和平均奖励R平均之差判断是否进行epsilon的更新;利用Dueling DQN算法构建深度强化学习框架;根据行为值函数的TD‑error判断此时是进行探索或利用并更新epsilon的值;将经验池中TD误差导入Dueling DQN强化学习框架,进行训练更新网络。本发明推进了探索与利用的困境问题研究;对何时进行探索及利用进行了合理的设计;本发明的最终结果是实现epsilon的动态更新,可实现epsilon的动态更新问题,为动态epsilon的发展提供有效的理论基础。

    一种在强化学习中基于变分自动编码器的内部激励方法

    公开(公告)号:CN116306816A

    公开(公告)日:2023-06-23

    申请号:CN202310247094.1

    申请日:2023-03-15

    Inventor: 曹俊豪 孔燕

    Abstract: 本发明公开了一种在强化学习中基于变分自动编码器的内部激励方法,通过构建Advantage Actor‑Critic(A2C)深度强化学习框架并采用变分自动编码器(VAE)将状态空间投射到一个潜在空间,该空间将表示环境的内在结构;通过使用VAE容易地得到智能体对于状态好奇度的度量,并将其定义为在潜在空间上后验分布偏离先验分布的程度。本发明所述方法为探索与利用困境提供了一种新的思路,保留了以往方法的优越性,也引入了新思路的先进性,对于探索与利用问题具有重要的参考意义;本发明提出的使用变分自动编码对状态进行编码,对于何时进行探索何时进行利用进行了合理的设计,对于探索与利用这一经典问题具有重要的研究意义。

Patent Agency Ranking