-
公开(公告)号:CN117634645A
公开(公告)日:2024-03-01
申请号:CN202311645312.3
申请日:2023-12-04
Applicant: 南京大学
IPC: G06N20/00 , G06N3/092 , G06N3/0985 , G06F18/23213
Abstract: 一种用于多智能体强化学习中的对比学习表征方法,配置多智能体系统的环境参数,建立智能体策略网络、值分解系统以及多头注意力机制;通过智能体与环境交互,收集智能体的部分观测和全局状态,获取环境奖励,存放至经验回放池用于训练;然后从经验回放池中采集一个批次的数据,使用多智能体强化学习算法训练策略网络寻找能够获取最大累积奖励的最优策略,并定期使用对比学习约束智能体学习跟行为模式相关的角色表征,实现多智能体强化学习。本发明提出基于注意力引导的对比学习表征方法,在具有更快的收敛,并且具有更高效的探索,能够有效的避免智能体的同质化,从而在复杂动态环境中有效提高多智能体强化学习算法的学习效率和收敛速度。
-
-
公开(公告)号:CN113189985B
公开(公告)日:2022-09-23
申请号:CN202110410291.1
申请日:2021-04-16
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本发明公开一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,把自动驾驶任务建模为一个部分可观察马尔科夫决策任务,并使用一种高效在线规划求解方法对其进行实时求解。由于采用了在线求解的方法,本系统能够支持对各类道路类型、障碍物类型、智能体类型的灵活建模求解,是一种通用的智能驾驶规划方法。本方法所采用的在线规划求解方法利用自适应粒子滤波实现了信念状态的高效近似,并引入了信念填充方法对相似观察分支进行合并,这使得其能够高效地求解自动驾驶这类观察空间巨大的任务。
-
公开(公告)号:CN113044064A
公开(公告)日:2021-06-29
申请号:CN202110356309.4
申请日:2021-04-01
Applicant: 南京大学
Abstract: 本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,引入了一个任务编码模块,从车辆行车轨迹中识别当前车况信息,并编码为向量表示,使系统意识到当前车况,并且在车况发生改变时及时调整自身行车策略,使系统更加鲁棒、安全。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性;通过改变SAC强化学习算法,使其能够基于任务编码模块做出决策;通过最大化任务编码与采样轨迹之间的互信息的方式,使任务编码模块能够学习到一个包含丰富信息的任务编码。
-
公开(公告)号:CN114911157B
公开(公告)日:2025-01-03
申请号:CN202210366719.1
申请日:2022-04-08
Applicant: 南京大学
IPC: G05B13/04
Abstract: 本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及系统,该控制方法及系统主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务,本发明采用部分可观测环境下的强化学习算法。系统包括滤波单元、规划单元、回放池、学习单元。在本发明中,使用状态粒子表示信念状态以减少信念状态更新的计算复杂度,使用基于学得模型的模拟规划以提高样本利用率,使用重采样方法防止粒子退化问题,使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习,并在实际机器人导航任务中使用学得的策略。
-
公开(公告)号:CN117689039A
公开(公告)日:2024-03-12
申请号:CN202311725468.2
申请日:2023-12-15
Applicant: 南京大学
Abstract: 本发明公开一种基于乐观性原则和深度模型的智能体动作生成策略训练方法,将机器人行走任务建模为一个马尔科夫决策过程 ,其中S表示状态空间,指行走过程中机器人能感知到的状态信息;A表示动作空间,包含机器人能执行的所有动作;T表示状态转移函数,给定了机器人在任意状态采取任意动作后转移到的新状态的概率分布;R表示奖励函数,给定了机器人在任意状态采取任意动作后所收到的奖励,γ表示折扣因子;机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程,为决策提供信息;机器人行走策略训练方法包括三个核心模块:基于乐观性原则的深度模型构建,基于深度模型的不确定性规划,以及机器人行走策略的训练。
-
公开(公告)号:CN117075470A
公开(公告)日:2023-11-17
申请号:CN202310976077.1
申请日:2023-08-04
Applicant: 南京大学
Abstract: 本发明公开一种基于内部逻辑归纳的机器人决策策略训练方法及系统,在像素‑符号混合形式输入的机器人决策环境下,该方法针对不同输入形式的特点,将深度强化学习算法和规则学习算法整合,分别处理像素输入和符号输入。在机器人决策策略训练过程中,规则学习算法从少量高质量样本中归纳出有价值的命题逻辑知识,然后使用归纳的命题逻辑知识进行奖励工程设计,帮助深度强化学习算法的训练,提高训练方法的样本数据利用效率。
-
公开(公告)号:CN116360435A
公开(公告)日:2023-06-30
申请号:CN202310294489.7
申请日:2023-03-24
Applicant: 南京大学
IPC: G05D1/02 , G06N3/0442 , G06N3/045 , G06N3/092 , G06N7/01
Abstract: 本发明公开一种基于情节记忆的多智能体协同策略的训练方法和系统,利用情节记忆方法,在收集训练数据时,记录各个机器人不同状态下经历的情节与对应累计回报,并将该情节与对应回报作为策略训练时机器人的额外目标。通过多机器人强化学习方法,使得各机器人能够在有限数据下快速学习高效协同策略,训练得到的机器人协同策略使智能体在决策时,既能考虑目前的状态价值函数,又能考虑到长期的情节回报,从而实现综合决策。本发明在实际场景中仅通过少量训练数据实现快速策略训练,以有效应对动态开放场景下的合作任务。
-
公开(公告)号:CN116352700A
公开(公告)日:2023-06-30
申请号:CN202310049748.X
申请日:2023-02-01
Applicant: 南京大学
IPC: B25J9/16 , G06N3/0464 , G06N3/096 , G06N3/092
Abstract: 本发明公开一种基于随机网络预测误差的专家数据扩增方法和装置,通过在机械臂专家数据上使用随机网络蒸馏方法训练预测网络,能够使用预测网络的预测误差判别与机械臂专家数据相似的数据,机械臂在目标任务的场景下进行一系列操作采样得到数据,根据预测误差筛选采样数据中与机械臂专家数据相似的部分,然后将筛选得到的数据对原始机械臂专家数据集进行扩增。本发明能在不与机械臂专家交互的条件下,通过机械臂在目标任务的场景下与环境交互采样数据并利用预测误差筛选与专家数据接近的数据,对原始机械臂专家数据集进行扩增,从而提升使用行为克隆训练的机械臂的策略的性能。
-
公开(公告)号:CN116300907A
公开(公告)日:2023-06-23
申请号:CN202310173122.X
申请日:2023-02-14
Applicant: 杭州海康威视数字技术股份有限公司 , 南京大学
IPC: G05D1/02
Abstract: 本申请公开了一种智能体的控制方法、系统、自动驾驶设备。具备包括获取智能体在当前时刻采集得到的,智能体所处运行环境的第一视频数据,并基于智能体的第一视频数据,计算得到智能体在运行环境下的未来行进过程中与其它智能体发生碰撞的碰撞概率。以使后续为智能体选取与碰撞概率相匹配的路线规划策略后,根据路线规划策略,得到智能体在当前时刻执行的决策动作,进而控制智能体执行决策动作。其中,路线规划策略包括利用强化学习模型规划智能体在当前行驶路线下执行决策动作的第一路线规划策略,或,利用免碰撞搜索模型规划智能体在其它行驶路线下执行决策动作的第二路线规划策略。
-
-
-
-
-
-
-
-
-