-
公开(公告)号:CN114613169A
公开(公告)日:2022-06-10
申请号:CN202210415387.1
申请日:2022-04-20
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于双经验池DQN的交通信号灯控制方法,包括:1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;2、初始化算法相关参数,采集交通路口的路况信息,建立状态值st;3、将st输入主网络中,选择Q值最大值的动作at;4、执行at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到第一经验池;5、如果奖励rt大于历史经验平均奖励将(st,at,rt,st+1)存储到第二经验池;6、生成随机数P,以概率1‑P选择第一经验池,以概率P选择第二经验池,在选中的经验池中随机抽样,通过最小化损失函数训练主网络的参数;S7、定时更新目标值网络的参数;根据当前路况信息更新st,跳转至步骤3继续执行。该方法能够使算法快速收敛,获得的交通信号灯控制策略快速优化。
-
公开(公告)号:CN116502690A
公开(公告)日:2023-07-28
申请号:CN202310274985.6
申请日:2023-03-21
Applicant: 南京信息工程大学
IPC: G06N3/08 , G06N20/00 , G06F18/214
Abstract: 本发明公开了一种基于动态范围的深度强化学习塑造奖励方法,步骤如下:对稀疏奖励环境通过距离函数进行预处理,设定关于目标的初始范围以及塑造奖励函数,利用深度强化学习算法PPO进行训练,记录智能体在关于目标范围内外的轨迹数,根据智能体在关于目标范围内外的轨迹数量比例,更新目标范围以及重新塑造奖励函数。本发明为强化学习大规模的稀疏奖励环境问题提供了一种新的思路,保留了以往方法的优越性,也引入了新思路的先进性,对于稀疏奖励问题具有重要的参考意义;本发明提出的动态范围,对于何时进行更新范围以及重新塑造奖励函数进行了合理的设计,对于稀疏奖励这一经典问题具有重要的研究意义。
-
公开(公告)号:CN114613168B
公开(公告)日:2023-02-24
申请号:CN202210408279.1
申请日:2022-04-19
Applicant: 南京信息工程大学
IPC: G08G1/08 , G08G1/01 , G06N3/0442 , G06N3/092
Abstract: 本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法,包括:1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;主网络将t时刻状态值st输入LSTM中得到t+1时刻预测状态值合并st和并输入全连接网络,得到预测Q值的最大值和对应动作2、初始化算法参数,采集路况信息建立状态值st;3、将st输入主网络得到预测Q值取最大值的动作采用1‑ε策略选择动作at;4、执行动作at并计算奖励rt和状态st+1;5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络参数;6、定时更新目标值网络参数,根据当前路况更新st,跳转至步骤3继续执行。该方法根据当前路况以及对当前路况的预测来计算Q值,能够更精确地对交通信号进行控制。
-
公开(公告)号:CN114841311A
公开(公告)日:2022-08-02
申请号:CN202210322815.6
申请日:2022-03-30
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于拆分动作空间的深度强化学习斗地主游戏方法。涉及游戏人工智能技术领域与深度强化学习领域。对斗地主游戏动作空间按照主牌和副牌拆分为主牌动作空间和副牌动作空间;对样本数据进行编码和预处理;再构建主牌DQN网络,预训练主牌奖励函数来更新样本中的奖励值,将新的样本输入主牌DQN网络进行训练;构建副牌DQN网络,设计副牌奖励函数、更新样本中奖励值并放入副牌DQN网络训练;以单一DQN网络的智能体作为比较对象,以游戏胜率作为比较标准,比较主副牌DQN和单一DQN的表现,并进行可视化展示。本发明能够有效解决斗地主游戏中强化学习面临的动作空间巨大和奖励稀疏的问题,提升了智能体在游戏中的表现。
-
公开(公告)号:CN116341378A
公开(公告)日:2023-06-27
申请号:CN202310277221.2
申请日:2023-03-21
Applicant: 南京信息工程大学
IPC: G06F30/27 , G06F18/214 , G06N3/04 , G06N3/08 , G06F111/08
Abstract: 本发明公开了一种基于样本排序的深度强化学习随机采样方法,步骤如下:智能体与稀疏奖励环境进行交互,形成轨迹样本数据集存入经验池;对经验池中的样本数据进行标记;对经验池中的样本进行随机采样,并且生成图结构;将图结构的样本根据标记,并按照每个子图从后往前将样本进行优先级排序;利用DQN算法对网络进行更新。本发明为强化学习中的稀疏奖励对样本的利用效率不高提供了解决方案,能够更好地提升深度强化学习算法性能,为强化学习算法解决现实世界问题的发展提供了有效的理论基础;本发明提出的对随机采样的样本进行图结构转化,能够更直接地体现每个样本之间的联系,并且利用它们之间的联系使得每个样本在训练的过程中发挥充分。
-
公开(公告)号:CN114925810A
公开(公告)日:2022-08-19
申请号:CN202210431146.6
申请日:2022-04-22
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于深度强化学习的斗地主AI改进方法,涉及智能斗地主与深度强化学习领域,首先对斗地主牌局进行预处理,获得出牌数据集和历史出牌数据集;然后,利用二进制的思想改进牌的编码方式以及在DDQN算法为基准构建深度强化学习框架的深度神经网络中加入GRU,比较普通DDQN和改进的DDQN的实验结果,以此来验证加入GRU和二进制编码的思想是否合理。本发明公开的基于深度强化学习的斗地主AI改进方法能够通过减少编码但保留相同信息的方式来减少训练智能体所需要的时间;通过GRU能使智能体在回顾历史行为的同时做出更加合理的动作,有助于推进斗地主智能体各个领域的研究。
-
公开(公告)号:CN114613168A
公开(公告)日:2022-06-10
申请号:CN202210408279.1
申请日:2022-04-19
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法,包括:1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;主网络将t时刻状态值st输入LSTM中得到t+1时刻预测状态值合并st和并输入全连接网络,得到预测Q值的最大值和对应动作2、初始化算法参数,采集路况信息建立状态值st;3、将st输入主网络得到预测Q值取最大值的动作采用1‑ε策略选择动作at;4、执行动作at并计算奖励rt和状态st+1;5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络参数;6、定时更新目标值网络参数,根据当前路况更新st,跳转至步骤3继续执行。该方法根据当前路况以及对当前路况的预测来计算Q值,能够更精确地对交通信号进行控制。
-
-
-
-
-
-