-
公开(公告)号:CN117634647A
公开(公告)日:2024-03-01
申请号:CN202311656001.7
申请日:2023-12-04
Applicant: 南京大学
IPC: G06N20/00 , G06F18/214
Abstract: 一种基于扩散的双生成回放的持续离线强化学习方法,首先将持续学习策略解耦为基于扩散的行为生成模型和多头动作评估模型;其次,训练任务‑条件扩散模型来模拟旧任务的状态分布,生成的状态与行为生成模型的相应响应配对,以用高保真回放的伪样本表示旧任务;最后,通过将伪样本与新任务的真实样本交错,不断更新状态和行为生成模型以建模逐渐多样化的行为,并以行为克隆方式规范多头动作评估模型以减少遗忘。本发明提出一种双重生成回放框架,通过生成的伪数据的并发回放来保留旧任务的知识,实验证明了本发明方法在持续离线学习中实现了更好的前向迁移并保持更少的遗忘,并且由于其样本空间的高保真回放而非常接近使用旧任务真实数据的结果。
-
公开(公告)号:CN117634645A
公开(公告)日:2024-03-01
申请号:CN202311645312.3
申请日:2023-12-04
Applicant: 南京大学
IPC: G06N20/00 , G06N3/092 , G06N3/0985 , G06F18/23213
Abstract: 一种用于多智能体强化学习中的对比学习表征方法,配置多智能体系统的环境参数,建立智能体策略网络、值分解系统以及多头注意力机制;通过智能体与环境交互,收集智能体的部分观测和全局状态,获取环境奖励,存放至经验回放池用于训练;然后从经验回放池中采集一个批次的数据,使用多智能体强化学习算法训练策略网络寻找能够获取最大累积奖励的最优策略,并定期使用对比学习约束智能体学习跟行为模式相关的角色表征,实现多智能体强化学习。本发明提出基于注意力引导的对比学习表征方法,在具有更快的收敛,并且具有更高效的探索,能够有效的避免智能体的同质化,从而在复杂动态环境中有效提高多智能体强化学习算法的学习效率和收敛速度。
-
公开(公告)号:CN117096984A
公开(公告)日:2023-11-21
申请号:CN202311113458.3
申请日:2023-08-31
Applicant: 南京大学
IPC: H02J7/00 , H01M10/42 , H01M10/44 , G06F30/27 , G06F111/06
Abstract: 本发明涉及电力系统技术领域,尤其涉及一种基于强化学习的电池组均衡感知快充控制方法和系统,所述方法包括:建立电池单体模型和电池组的能量均衡拓扑模型,并将两者转化为电池组的均衡感知快充数学模型;根据均衡感知快充数学模型建立电池组均衡感知快充优化问题,并根据优化问题设定任务环境;其中,所述优化问题以充电时间和不一致性最小为目标;设置强化学习算法的超参数,并通过均衡感知快充数学模型与强化学习算法交互,收集训练数据,完成对强化学习算法的训练;将训练好的强化学习算法迁移到真实电池组当中,对电池组进行均衡感知快充控制。本发明实现自适应的充电均衡策略,保证充电结束后电池组具有更多的能量。
-
公开(公告)号:CN115179280A
公开(公告)日:2022-10-14
申请号:CN202210705509.0
申请日:2022-06-21
Applicant: 南京大学
IPC: B25J9/16
Abstract: 本发明公开一种用于强化学习机械臂控制中基于磁场的奖励塑形方法,包括:S1、设计任务环境,设定机械臂、目标物和障碍物的相关参数,设置强化学习算法的超参数;S2、将目标物和障碍物分别视为与其同等形状的永磁体,确定三维空间磁场强度分布的计算方式;S3、机械臂与环境交互,收集训练数据,计算机械臂末端坐标在目标物和障碍物磁场中的磁场强度,得到磁场奖励函数;S4、利用DPBA算法将磁场奖励函数转换为基于势能的塑形奖励函数,与训练数据一起存放至经验回放池;S5、从经验回放池中采集一个批次的数据,使用强化学习算法训练机械臂完成规定任务。本发明能够为机械臂提供目标物和障碍物更为丰富的方位信息,从而提高强化学习算法的学习效率。
-
公开(公告)号:CN110908377A
公开(公告)日:2020-03-24
申请号:CN201911173702.9
申请日:2019-11-26
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本申请公开了一种机器人导航空间约简方法,包括:机器人利用自身的传感器对周围环境进行扫描,获取周围环境的信息;根据周围环境信息建立二值化六边形栅格地图,地图中标注出可通行区域和不可通行区域,形成原始环境地图;根据原始环境地图中的起点和终点位置,使用沿左手、右手走的规则,获得两条从起点到终点的路径轨迹;确定优化参数K值,对两条路径轨迹进行优化,并将优化后的两条路径轨迹衔接生成约简后新的导航空间;根据机器人初始位置和新的导航空间,强化学习对Q表进行更新,获取机器人的最优运动策略,得到机器人的运动路径。本申请的方法减少了机器人在导航过程中的无效探索空间,收敛快,学习效率高。
-
公开(公告)号:CN117129898A
公开(公告)日:2023-11-28
申请号:CN202311113459.8
申请日:2023-08-31
Applicant: 南京大学
IPC: G01R31/392 , G01R31/367 , G01R31/389
Abstract: 本发明公开一种基于阻抗谱数据和R‑GPR的健康状态估计方法,包括:首先,获取电池充放电循环过程中的电化学阻抗谱数据,从电化学阻抗谱数据中提取电池健康指标,获取到训练数据集;然后,基于最大化边际对数似然函数方法在训练过程中得到高斯过程回归模型的最优超参数,建立具有一步延迟反馈回路的循环高斯过程回归模型,即R‑GPR模型;将电池健康指标输入到R‑GPR模型中进行训练,得到健康状态估计模型;最后,将测试数据集中提取的电池健康指标输入至训练好的健康状态估计模型,实现电池SOH的估计,从而实现电池的健康状态估计。
-
公开(公告)号:CN110908377B
公开(公告)日:2021-04-27
申请号:CN201911173702.9
申请日:2019-11-26
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本申请公开了一种机器人导航空间约简方法,包括:机器人利用自身的传感器对周围环境进行扫描,获取周围环境的信息;根据周围环境信息建立二值化六边形栅格地图,地图中标注出可通行区域和不可通行区域,形成原始环境地图;根据原始环境地图中的起点和终点位置,使用沿左手、右手走的规则,获得两条从起点到终点的路径轨迹;确定优化参数K值,对两条路径轨迹进行优化,并将优化后的两条路径轨迹衔接生成约简后新的导航空间;根据机器人初始位置和新的导航空间,强化学习对Q表进行更新,获取机器人的最优运动策略,得到机器人的运动路径。本申请的方法减少了机器人在导航过程中的无效探索空间,收敛快,学习效率高。
-
-
-
-
-
-