-
公开(公告)号:CN113110592A
公开(公告)日:2021-07-13
申请号:CN202110488468.X
申请日:2021-05-06
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服GPS在特定环境中信号不足的问题,实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤:(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息,利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划,生成无人机前进路径中的阶段性目标点,用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高,不确定因素大的复杂环境中有自主决策能力,在相当程度上可应对突发情况,完成特定任务。
-
公开(公告)号:CN113044064A
公开(公告)日:2021-06-29
申请号:CN202110356309.4
申请日:2021-04-01
Applicant: 南京大学
Abstract: 本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,引入了一个任务编码模块,从车辆行车轨迹中识别当前车况信息,并编码为向量表示,使系统意识到当前车况,并且在车况发生改变时及时调整自身行车策略,使系统更加鲁棒、安全。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性;通过改变SAC强化学习算法,使其能够基于任务编码模块做出决策;通过最大化任务编码与采样轨迹之间的互信息的方式,使任务编码模块能够学习到一个包含丰富信息的任务编码。
-
公开(公告)号:CN108255059B
公开(公告)日:2021-03-19
申请号:CN201810054083.0
申请日:2018-01-19
Applicant: 南京大学
IPC: G05B13/04
Abstract: 本发明公开了一种基于模拟器训练的机器人控制方法,对机器人待执行任务环境进行仿真建模,建立模拟器;在模拟器中,随机生成T个不同性能参数的机器人,各机器人分别训练策略,最终得到由各自策略构成的基策略集;在模拟器中,另外随机生成M个不同性能参数的机器人,并在此M个机器人中优化得到各机器人在执行任务时所使用的基策略集的最优组合权重,将各机器人执行随机动作序列得到的特征Fi(A)和最优组合权重分别作为回归模型的输入和标签,优化得到最优的回归模型θ;在模拟器中,另外随机生成N个不同性能参数的机器人,在这N个机器人上优化出最优动作;在同一任务中,使未知的不同性能参数的机器人执行最优动作A*,得到该机器人的最优动作策略。
-
公开(公告)号:CN112162564A
公开(公告)日:2021-01-01
申请号:CN202011020765.3
申请日:2020-09-25
Applicant: 南京大学
Abstract: 本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。
-
公开(公告)号:CN112131661A
公开(公告)日:2020-12-25
申请号:CN202010946929.9
申请日:2020-09-10
Applicant: 南京大学
Abstract: 本发明公开一种无人机自主跟拍运动目标的方法,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前的初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。相比以往的手工控制无人机航拍的方法,使用强化学习学出的飞行控制策略,由于训练采样丰富,往往能够面对各种复杂情况,有反应灵活、控制平稳、人力成本低等优点。
-
公开(公告)号:CN112034887A
公开(公告)日:2020-12-04
申请号:CN202010944543.4
申请日:2020-09-10
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种无人机躲避柱状障碍物到达目标点的最优路径训练方法,包含以下步骤:(1)构造基于空气动力学的环境模拟器;(2)使用深度神经网络初始化无人机策略模型;(3)无人机在环境模拟器中获得当前时刻的观测,并做出动作;(4)无人机与环境模拟器交互,生成并保存训练数据,对训练数据进行采样,使用训练数据通过强化学习算法学习无人机躲避柱状障碍物选择到达目标点最优路径。本发明能够使无人机获得类似人类的学习能力,在难度系数较高、环境未知、复杂且具有不确定因素的任务中完成任务。
-
公开(公告)号:CN111444721A
公开(公告)日:2020-07-24
申请号:CN202010460134.7
申请日:2020-05-27
Applicant: 南京大学
IPC: G06F40/295 , G06F40/30 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于预训练语言模型的中文文本关键信息抽取方法,具体步骤如下:(1)将待抽取的关键信息进行分类,易于归纳组成规则的信息类别,使用正则匹配的方法抽取。(2)对命名实体使用序列标注模型抽取。(3)序列标注模型采用对预训练语言模型微调的方法进行构建,首先使用大规模无标记文本语料学习得到预训练语言模型,并在预训练阶段引入词边界特征。(4)将使用规则匹配的数据内容替换为其对应的规则模板标签,以完成规则匹配与深度网络的融合。(5)根据有标记的训练数据,在预训练语言模型上进行微调,将其迁移到命名实体的序列标注任务上。本发明可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类。
-
公开(公告)号:CN107577669A
公开(公告)日:2018-01-12
申请号:CN201710831975.2
申请日:2017-09-15
Applicant: 南京大学
IPC: G06F17/27
Abstract: 本发明公开了一种计算机中自动生成英文论文标题缩写词的方法,包括以下步骤:对描述内容进行分析,得到各个词语的权重,即重要程度;根据各个词的权重,采用beamsearch的方法在整个缩写词空间中搜索候选缩写词,并得到缩写词的初步打分;对缩写词打分进行调整,得到最终的得分,并按从大到小排序。本发明对现有的缩写词生成方法进行改善和提高,能够避免对描述文本各部分平等处理的问题。同时,通过句法分析、语义分析、语言模型等自然语言处理相关技术在一定程度上学习人们在创造缩写词的时候所考虑到的语言学相关知识,使形成缩写词的过程更具有解释性。
-
公开(公告)号:CN114839879B
公开(公告)日:2025-01-03
申请号:CN202210553231.X
申请日:2022-05-19
Applicant: 南京大学
IPC: G05B13/04
Abstract: 本发明公开了一种基于分布式强化学习的自主设备决策控制方法,包括训练环境搭建步骤,分布式训练步骤和输出决策模型步骤。在分布式集群中配置好采样节点、缓存节点和训练节点,将自主设备仿真环境封装到容器镜像中,分配虚拟化资源。启动分布式智能体训练系统,初始化训练端模型参数,发送参数到缓存节点,再转发到采样节点,完成智能体与仿真环境的交互过程后,再回传数据到训练节点,使用离轨深度强化学习算法更新模型参数。分布式训练完成后,将模型从系统中导出,切换到快速推理模式,用于智能决策问题。本发明在实施过程中能在较大规模分布式集群上进行训练,并且能够充分利用硬件资源,同时对于通信模式的改良能够显著减小带宽需求。
-
公开(公告)号:CN119129638A
公开(公告)日:2024-12-13
申请号:CN202411624958.8
申请日:2024-11-14
Applicant: 南京大学
IPC: G06N3/006 , G06N3/0455 , G06N3/0464 , G06F40/20 , G06F18/241
Abstract: 本发明公开一种基于自然语言指令的高效人机协作策略部署方法,该方法借助于自然语言指导的条件扩散模型的强大表征能力,将多样化队友的最优协作策略参数压缩为单个条件扩散模型,在部署阶段基于人类队友提供的自然语言指令,为队友生成定制化的协作策略。该方法能够在试错成本较高的实际场景中仅通过少量自然语言指令实现协作策略的生成和部署,能够保证人机协作策略部署的高效性。
-
-
-
-
-
-
-
-
-