-
公开(公告)号:CN116524736B
公开(公告)日:2024-06-25
申请号:CN202310278110.3
申请日:2023-03-21
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于多任务思想下的深度强化学习交通灯控制方法,将平衡压力作为奖励函数构建深度强化学习框架,对交通信号灯进行智能调控。与以往信号灯控制的方法不同的是,本发明保留了以往方法的优越性,增强了相邻路口之间的互相协作,更是在最大压力概念的基础上更科学地平衡了各条出车道上的压力,从而更好地缓解了交通拥堵的情况,推进了智能交通的发展;本发明提出的一个交通灯控制算法TaskLight,它引用了多任务学习的思想,引入一种噪声机制并引入到了多任务学习框架,以此来权衡不同时间段每个任务的重要性程度。对于中心路口的效果更佳,对于缓解市中心路段的交通拥堵具有重要的现实意义。
-
公开(公告)号:CN116311979A
公开(公告)日:2023-06-23
申请号:CN202310235071.9
申请日:2023-03-13
Applicant: 南京信息工程大学
IPC: G08G1/07 , G08G1/01 , G06F18/214 , G06N20/00
Abstract: 本发明公开了一种基于深度强化学习的自适应交通灯控制方法,将交通数据集和车流数据集导入Dueling Actor‑Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;所述Dueling Actor‑Critic深度强化学习基于自适应ε‑greedy算法建立,ε值在整个执行过程不断变化,使其更具有探索性,最终目标是为了获得最优动作并控制交通灯时长,避免了陷入局部最优的问题。
-
公开(公告)号:CN114613169B
公开(公告)日:2023-02-28
申请号:CN202210415387.1
申请日:2022-04-20
Applicant: 南京信息工程大学
IPC: G08G1/08 , G08G1/01 , G06N3/047 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于双经验池DQN的交通信号灯控制方法,包括:1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;2、初始化算法相关参数,采集交通路口的路况信息,建立状态值st;3、将st输入主网络中,选择Q值最大值的动作at;4、执行at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到第一经验池;5、如果奖励rt大于历史经验平均奖励将(st,at,rt,st+1)存储到第二经验池;6、生成随机数P,以概率1‑P选择第一经验池,以概率P选择第二经验池,在选中的经验池中随机抽样,通过最小化损失函数训练主网络的参数;S7、定时更新目标值网络的参数;根据当前路况信息更新st,跳转至步骤3继续执行。该方法能够使算法快速收敛,获得的交通信号灯控制策略快速优化。
-
公开(公告)号:CN114669056A
公开(公告)日:2022-06-28
申请号:CN202210329589.4
申请日:2022-03-31
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于逆向强化学习算法在斗地主中的应用。涉及游戏与深度强化学习领域。首先对采集专家数据,获得专家数据集;然后,根据逆向强化学习和专家数据,学习到新的奖励函数;将学习到的奖励函数替换DQN算法中的奖励函数进行训练,比较两种框架的实验结果,以此来验证逆向强化学习在斗地主中的应用是否合理;最后,在RLCard平台对两种框架进行同样时间的训练,进行对比来验证新框架的效果。本发明能够通过较少的数据得到不错的结果,降低了对数据量的需求,减少了训练时间。
-
公开(公告)号:CN114595818A
公开(公告)日:2022-06-07
申请号:CN202210316971.1
申请日:2022-03-29
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于epsilon‑greedy的深度强化学习动态epsilon的方法。涉及探索与利用困境领域,步骤:对多臂老虎机的数据进行预处理;根据即时奖励rt+1和平均奖励R平均之差判断是否进行epsilon的更新;利用Dueling DQN算法构建深度强化学习框架;根据行为值函数的TD‑error判断此时是进行探索或利用并更新epsilon的值;将经验池中TD误差导入Dueling DQN强化学习框架,进行训练更新网络。本发明推进了探索与利用的困境问题研究;对何时进行探索及利用进行了合理的设计;本发明的最终结果是实现epsilon的动态更新,可实现epsilon的动态更新问题,为动态epsilon的发展提供有效的理论基础。
-
公开(公告)号:CN116311979B
公开(公告)日:2024-08-23
申请号:CN202310235071.9
申请日:2023-03-13
Applicant: 南京信息工程大学
IPC: G08G1/07 , G08G1/01 , G06F18/214 , G06N20/00
Abstract: 本发明公开了一种基于深度强化学习的自适应交通灯控制方法,将交通数据集和车流数据集导入Dueling Actor‑Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;所述Dueling Actor‑Critic深度强化学习基于自适应ε‑greedy算法建立,ε值在整个执行过程不断变化,使其更具有探索性,最终目标是为了获得最优动作并控制交通灯时长,避免了陷入局部最优的问题。
-
公开(公告)号:CN117708594A
公开(公告)日:2024-03-15
申请号:CN202311717211.2
申请日:2023-12-13
Applicant: 南京信息工程大学
IPC: G06F18/214 , G06N3/092 , G08G1/08 , G08G1/081
Abstract: 本发明公开了一种深度强化学习交通灯控制方法,包括以下步骤:(1)对城市内交通网络数据进行预处理;(2)根据预处理后的数据利用Multi‑step DQN算法构建模型;(3)将n个单步的经验进行累加,再利用累加后的经验进行学习;(4)更新Multi‑step DQN的网络参数;(5)将Attentive experience replay与DQN网络相结合,构建深度强化学习模型;(6)将交通数据集、车流数据集导入深度强化学习模型,进行训练,并记录实验结果;(7)比较步骤(2)和步骤(5)中的实验结果;(8)进行可视化展示;本发明与传统控制方法相比,MALight在减少车辆的平均通行时间和提高路口的平均吞吐量做得更好。
-
公开(公告)号:CN116524736A
公开(公告)日:2023-08-01
申请号:CN202310278110.3
申请日:2023-03-21
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于多任务思想下的深度强化学习交通灯控制方法,将平衡压力作为奖励函数构建深度强化学习框架,对交通信号灯进行智能调控。与以往信号灯控制的方法不同的是,本发明保留了以往方法的优越性,增强了相邻路口之间的互相协作,更是在最大压力概念的基础上更科学地平衡了各条出车道上的压力,从而更好地缓解了交通拥堵的情况,推进了智能交通的发展;本发明提出的一个交通灯控制算法TaskLight,它引用了多任务学习的思想,引入一种噪声机制并引入到了多任务学习框架,以此来权衡不同时间段每个任务的重要性程度。对于中心路口的效果更佳,对于缓解市中心路段的交通拥堵具有重要的现实意义。
-
公开(公告)号:CN116306816A
公开(公告)日:2023-06-23
申请号:CN202310247094.1
申请日:2023-03-15
Applicant: 南京信息工程大学
IPC: G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种在强化学习中基于变分自动编码器的内部激励方法,通过构建Advantage Actor‑Critic(A2C)深度强化学习框架并采用变分自动编码器(VAE)将状态空间投射到一个潜在空间,该空间将表示环境的内在结构;通过使用VAE容易地得到智能体对于状态好奇度的度量,并将其定义为在潜在空间上后验分布偏离先验分布的程度。本发明所述方法为探索与利用困境提供了一种新的思路,保留了以往方法的优越性,也引入了新思路的先进性,对于探索与利用问题具有重要的参考意义;本发明提出的使用变分自动编码对状态进行编码,对于何时进行探索何时进行利用进行了合理的设计,对于探索与利用这一经典问题具有重要的研究意义。
-
公开(公告)号:CN116185595A
公开(公告)日:2023-05-30
申请号:CN202310274087.0
申请日:2023-03-21
Applicant: 南京信息工程大学
IPC: G06F9/48 , G06F18/214 , G06N20/00 , G06N3/08
Abstract: 本发明公开了一种基于目标导向的深度强化学习中优先经验回放方法,步骤如下:对gym mountain_carv0的数据进行预处理;根据智能体小车在不同状态下与目标状态下的差异作为目标导向因子;利用DQN算法构建深度强化学习框架;根据行为值函数的TD‑error去量化经验的优先级的第一部分;将目标导向因子加入到优先级定义中成为优先级的第二部分,不断对整个网络进行更新,以求得到更好的结果。本发明保留了以往优先经验回放的优越性,也科学地完善了优先级的重新定义,对优先级的定义具有重要的参考意义;本发明提出的目标导向因子α,对于不同状态之间进行了合理的量化,对于经验回放中的优先级具有重要的研究意义。
-
-
-
-
-
-
-
-
-