基于用户模型学习的多任务强化学习用户运营方法及系统

    公开(公告)号:CN114912357A

    公开(公告)日:2022-08-16

    申请号:CN202210537142.6

    申请日:2022-05-18

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于用户模型学习的多任务强化学习用户运营方法及系统,去运营平台线上环境收集每个城市最近一段时间的平台操作和用户反馈数据,换成适用于机器学习的用户轨迹数据和用户行为数据;使用每个城市的用户轨迹数据,训练用于提取特征的编码器网络,输出每个城市每个用户的特征向量;进行聚类操作,构建通用网络模型结构;从每个城市的用户行为数据中去还原出每个城市的用户模型;使用通用网络模型结构初始化算智能体模型,以多个城市的用户模型为多任务环境来训练算法的通用智能体模型。将通用智能体模型中的通用运营策略模型部署到多个城市的线上环境,进行用户运营决策,并产生新一轮的平台操作和用户反馈数据。

    基于部分可观测强化学习的机器人导航控制方法及系统

    公开(公告)号:CN114911157A

    公开(公告)日:2022-08-16

    申请号:CN202210366719.1

    申请日:2022-04-08

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及系统,该控制方法及系统主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务,本发明采用部分可观测环境下的强化学习算法。系统包括滤波单元、规划单元、回放池、学习单元。在本发明中,使用状态粒子表示信念状态以减少信念状态更新的计算复杂度,使用基于学得模型的模拟规划以提高样本利用率,使用重采样方法防止粒子退化问题,使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习,并在实际机器人导航任务中使用学得的策略。

    一种基于分布式强化学习的自主设备决策控制方法

    公开(公告)号:CN114839879A

    公开(公告)日:2022-08-02

    申请号:CN202210553231.X

    申请日:2022-05-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于分布式强化学习的自主设备决策控制方法,包括训练环境搭建步骤,分布式训练步骤和输出决策模型步骤。在分布式集群中配置好采样节点、缓存节点和训练节点,将自主设备仿真环境封装到容器镜像中,分配虚拟化资源。启动分布式智能体训练系统,初始化训练端模型参数,发送参数到缓存节点,再转发到采样节点,完成智能体与仿真环境的交互过程后,再回传数据到训练节点,使用离轨深度强化学习算法更新模型参数。分布式训练完成后,将模型从系统中导出,切换到快速推理模式,用于智能决策问题。本发明在实施过程中能在较大规模分布式集群上进行训练,并且能够充分利用硬件资源,同时对于通信模式的改良能够显著减小带宽需求。

    基于强化学习的无人机对抗博弈训练控制方法

    公开(公告)号:CN113282100A

    公开(公告)日:2021-08-20

    申请号:CN202110464589.0

    申请日:2021-04-28

    Applicant: 南京大学

    Abstract: 本申请公开了一种基于强化学习的无人机对抗博弈训练控制方法,包括如下步骤:使主智能体与对手池中所有对手对战并统计所述主智能体的胜率;判断所述主智能体的胜率是否满足预设要求;如果所述主智能体的胜率满足预设要求,则根据所述主智能体的胜率选择对抗对手;使主智能体与所述对抗对手训练直至所述主智能体策略收敛。本申请的有益之处在于。本申请的有益之处在于提供了一种行之有效的基于强化学习的无人机对抗博弈训练控制方法从而使主智能体具有更强学习能力。

    一种基于最大熵强化学习框架的无人驾驶车道保持方法

    公开(公告)号:CN113276852A

    公开(公告)日:2021-08-20

    申请号:CN202110375328.1

    申请日:2021-04-08

    Applicant: 南京大学

    Abstract: 本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。

    基于动力学控制和随机化的交通流仿真方法

    公开(公告)号:CN113268810A

    公开(公告)日:2021-08-17

    申请号:CN202110466328.2

    申请日:2021-04-28

    Applicant: 南京大学

    Abstract: 本申请提供了一种基于动力学控制和随机化的交通流仿真方法,包括如下步骤:创建若干相异的道路单元;配置每段道路起始导航点和结束导航点、模拟车辆和模拟行人的生成位置集合、速度限制以及限制可行区域的墙体;将各道路单元进行拼接,使驶出道路的结束导航点靠近驶入道路的开始导航点;随机从所有道路单元的模拟行人生成位置集合中选取初始化位置等步骤。本申请的有益之处在于提供了一种有效模拟车辆和行人相互作用关系的基于动力学控制和随机化的交通流仿真方法。

    一种求解最小集合覆盖问题近似解的组合优化方法

    公开(公告)号:CN102799566A

    公开(公告)日:2012-11-28

    申请号:CN201210203404.1

    申请日:2012-06-19

    Applicant: 南京大学

    Inventor: 俞扬 周志华

    Abstract: 本发明公开了一种求解最小集合覆盖问题近似解的组合优化方法,首先,根据给出的最小集合覆盖问题,设置算法SEIP的参数;其次,运行SEIP算法,获得一个布尔向量解;然后,将布尔向量解码为对应的集合。本发明通过SEIP算法使最小集合覆盖问题的解的质量得到了保证,从而大大节省了应用过程中的成本开销解。

    一种基于强化学习的多无人机协同对抗学习方法

    公开(公告)号:CN119443202B

    公开(公告)日:2025-04-22

    申请号:CN202411580804.3

    申请日:2024-11-07

    Applicant: 南京大学

    Abstract: 本发明公开一种基于强化学习的多无人机协同对抗学习方法,设计基于多智能体间的通信机制并结合长短期记忆网络的特征聚合提取模块,准确高效地提取战场态势特征;采用分层强化学习方法,引入底层机动控制模块和上层作战决策模块,分别实现底层控制和上层决策,基于高效环境并行模块进行训练,提升复杂作战场景下的作战策略训练效率;此外,通过基于种群演化多样化的多智能体博弈训练模块提升了作战策略的泛化能力。本发明能够有效提取战场态势特征,进行高效协同作战训练,从而适应复杂多变的战场环境,提高无人机自主协同作战的泛化能力。

    基于人类偏好的无人机实时模仿决策方法

    公开(公告)号:CN118672138A

    公开(公告)日:2024-09-20

    申请号:CN202410691027.3

    申请日:2024-05-30

    Applicant: 南京大学

    Abstract: 本发明公开一种无人机的模仿决策方法,根据人类的偏好数据实时模仿,控制无人机完成人类的指定任务。该方法利用深度学习和强化学习技术,通过从人类示范中提取关键状态和行为模式,构建适应动态环境变化的决策模型。所述决策模型采用一种基于演示的注意力机制深度学习网络架构,使得无人机能够在复杂环境中自主学习并优化自身行为,以适应未预见的情况。该方法通过将单视演示学习(OSIL)融入上下文驱动的元强化学习框架中,使得无人机在面对新任务和环境变化时,能够迅速调整策略,提高任务完成的准确性和效率。本发明所提出的方法在处理动态环境中的突发变化方面表现优越,具有广泛的应用前景。

Patent Agency Ranking