基于持续策略重振的离线到在线可泛化强化学习方法和装置

    公开(公告)号:CN118493381A

    公开(公告)日:2024-08-16

    申请号:CN202410569772.0

    申请日:2024-05-09

    Applicant: 南京大学

    Abstract: 本发明公开一种基于持续策略重振的离线到在线可泛化强化学习方法和装置,首先通过周期性的策略重振恢复策略网络的学习能力,打破机器人在在线学习过程中受到初始偏差的影响,从而提高针对在线分布的适应能力。接着,通过自适应的策略约束,根据策略在当前分布当中的竞争性行为表达更新策略约束的目标策略,这一机制基于机器人实时的策略访问分布和行为策略竞争表达,有效提高了机器人策略约束的稳定性和泛化性。最后,采用基于历史策略池的策略混合方法,进一步提高了机器人平衡记忆与探索的能力,确保在在线策略更新过程中,能避免发生灾难性遗忘导致策略崩塌。

    一种基于多智能体强化学习的无人机集群协同学习方法

    公开(公告)号:CN112131660B

    公开(公告)日:2024-07-26

    申请号:CN202010944781.5

    申请日:2020-09-10

    Applicant: 南京大学

    Abstract: 本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。

    一种基于协程粒度的强化学习系统环境采样引擎设计方法

    公开(公告)号:CN117421128A

    公开(公告)日:2024-01-19

    申请号:CN202311564152.X

    申请日:2023-11-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于协程粒度的强化学习系统环境采样引擎设计方法,所述环境采样引擎的架构包括以下组件:线程池、工作线程、环境协程和调度器协程;所述线程池包含了若干个工作线程,用于为环境采样引擎提供并行计算资源;所述工作线程包含了若干个协程,用于执行多环境下的环境采样代码;所述环境协程承载了强化学习任务的环境对象,用于执行单个环境的具体逻辑代码;所述调度器协程负责环境协程的调度工作,用于切换工作线程中当前执行的环境协程。本发明方法消除每个核心的空转时间,并保证上下文切换仅会在一个环境执行步骤中只会发生一次,从而提高环境采样过程的吞吐量。

    基于生成对抗网络的具有可伸缩性模块化图像识别方法

    公开(公告)号:CN111461264B

    公开(公告)日:2023-06-13

    申请号:CN202010448712.5

    申请日:2020-05-25

    Applicant: 南京大学

    Abstract: 本发明公开一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据;根据类别个数N准备N个生成对抗网络模型;训练第i个类别的图像数据,i∈{1,2,...,N};训练生成对抗网络Gi,直到生成对抗网络生成的图像数据与原数据集图像数据的相似度达到预设值;固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi;固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成;对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成;将N个判别器并联排列组合成判别器组;将图片输入到判别器组,每个判别器将对图片输出预测结果;计算最终预测结果。

    基于虚拟环境模仿重构和强化学习的无人机飞行控制方法

    公开(公告)号:CN113467515B

    公开(公告)日:2023-03-10

    申请号:CN202110828301.3

    申请日:2021-07-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法,利用在真实飞行环境中采集到的状态转移历史轨迹数据,利用GAIL+BC算法构建基于模仿学习的虚拟环境;在虚拟环境中利用强化学习算法训练无人机飞行策略;将策略迁移到真实环境中。本发明使无人机能够在复杂多变的环境中,实现有效,稳定的自主飞行控制;通过利用历史交互数据构建虚拟环境,并让强化学习Agent在虚拟环境中训练的方式,避免了强化学习的高试错成本弊端,同时不再依赖专家知识和人力,并提高了模型对特殊环境状态的适应能力。通过GAIL算法和BC算法两种算法的结合,避免了基于纯模仿学习算法的收敛性问题,也避免了纯BC算法的模型偏移问题,解决了传统的虚拟环境重构算法的应用难题。

    一种基于最大熵强化学习框架的无人驾驶车道保持方法

    公开(公告)号:CN113276852B

    公开(公告)日:2022-09-23

    申请号:CN202110375328.1

    申请日:2021-04-08

    Applicant: 南京大学

    Abstract: 本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。

    一种基于离线强化学习的无人机自主飞行控制方法

    公开(公告)号:CN113110546B

    公开(公告)日:2022-09-23

    申请号:CN202110422019.5

    申请日:2021-04-20

    Applicant: 南京大学

    Abstract: 本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。

    一种基于用户行为模型的推荐策略优化方法和系统

    公开(公告)号:CN114911969A

    公开(公告)日:2022-08-16

    申请号:CN202210537164.2

    申请日:2022-05-18

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于用户行为模型的推荐策略优化方法和系统,基于生成对抗模仿学习算法从用户与视频推荐系统的离线交互数据中构建出能够反映用户行为偏好的用户行为模型。通过让强化学习智能体与用户行为模型进行交互收集数据,并基于强化学习算法PPO来优化视频推荐策略的相关指标得到最优推荐策略,降低了强化学习直接在推荐系统上试错带来的成本代价,并且显著地提升了推荐策略的即时交互指标和长期交互指标。该最优推荐策略部署到真实的推荐系统进行在线评估,若相关指标不符合系统的要求,则继续收集新的交互数据并重复用户模拟器构建过程和推荐策略优化过程,直至推荐策略的相关指标满足系统要求。

    一种模型训练的方法、运力分配的方法以及装置

    公开(公告)号:CN114861992A

    公开(公告)日:2022-08-05

    申请号:CN202210408938.1

    申请日:2022-04-19

    Abstract: 本说明书公开了一种模型训练的方法、运力分配的方法以及装置。首先,获取历史数据。其次,将历史数据输入到待训练的生成器中,以预测在指定时刻配送区域内配送运力的运力数据,作为预测运力数据。而后,根据预测运力数据,以及确定出的在指定时刻配送区域对应的区域状况数据,构建第一训练样本。然后,将第一训练样本输入到预设的判别器中,确定第一训练样本属于真实数据的置信度,并确定第一训练样本对应的奖励值。最后,以最大化第一训练样本对应的奖励值,对生成器进行训练。本方法可以通过基于判别器确定出的第一训练样本属于真实数据的置信度,得到第一训练样本对应的奖励值,对生成器进行训练,使得生成器确定出更加准确的预测运力数据。

    基于第三人称模仿学习的机械臂动作学习方法及系统

    公开(公告)号:CN111136659B

    公开(公告)日:2022-06-21

    申请号:CN202010040178.4

    申请日:2020-01-15

    Applicant: 南京大学

    Inventor: 章宗长 俞扬 姜冲

    Abstract: 本发明公开一种基于第三人称模仿学习的机械臂动作学习方法及系统,用于机械臂自动控制,使得机械臂可以通过观看第三方示范来自动学习如何完成相应的操控任务。本发明中样本均以视频形式存在,而无需使用大量传感器来获取状态信息;在判别器模块中使用了图像差分方法,可以使判别器模块忽略学习对象的外观与环境背景,从而可以使用第三方示范数据进行模仿学习;大大降低了样本的获取成本;通过在判别器模块中使用了变分判别器瓶颈来约束判别器对由机械臂产生的示范的判别准确率,更好地平衡判别器模块与控制策略模块的训练过程;本发明能够快速模仿用户示范的动作,操作简单灵活,对环境及示范者要求低。

Patent Agency Ranking