-
公开(公告)号:CN113282061A
公开(公告)日:2021-08-20
申请号:CN202110445367.4
申请日:2021-04-25
Applicant: 南京大学
IPC: G05B19/418 , G06F30/28 , G06N20/00
Abstract: 本发明公开一种基于课程学习的无人机空中博弈对抗的解决方法,包含以下步骤:(1)构建仿真模拟环境;(2)收集飞行员控制飞机的真实轨迹数据,将轨迹数据按照机动动作难度进行课程目标分类;(3)对指定课程目标下的轨迹,通过模仿学习来优化策略模型生成的轨迹和专家轨迹的相似度;(4)获得预训练无人机策略模型;(5)基于预训练无人机策略模型,在模拟器中创建敌我双方无人机智能体;(6)无人机在模拟器中获得当前时刻的观测;(7)无人机与模拟环境进行交互,将我方与敌方无人机对抗的任务建模为一个强化学习智能体与环境交互的问题,用强化学习算法优化无人机对抗的飞行策略;(8)获得无人机进行空中博弈对抗的有效策略。
-
公开(公告)号:CN113269040A
公开(公告)日:2021-08-17
申请号:CN202110445391.8
申请日:2021-04-25
Applicant: 南京大学
Abstract: 本发明公开一种结合图象识别与激光雷达点云分割的驾驶环境感知方法,包括:(1)在真实道路上,收集地面激光雷达点云数据和图像数据。(2)使用收集的图像数据作为参考,将激光雷达点云数据与图像数据进行标定,标记收集的激光雷达点云数据。(3)初始化点云分割网络,对标记的激光雷达点云数据进行训练,更新网络参数。(4)将训练好的网络移植到无人车工控机中,获得点云所属物体的类别。(5)对图像数据进行识别。(6)对分割后的激光雷达点云数据与图像识别后的图像数据进行融合,获取道路和物体所在的准确位置。本发明实时感知环境,克服了图像识别在天气不好、光线较差的情况下识别效果不佳的缺点。
-
公开(公告)号:CN113189985A
公开(公告)日:2021-07-30
申请号:CN202110410291.1
申请日:2021-04-16
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本发明公开一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,把自动驾驶任务建模为一个部分可观察马尔科夫决策任务,并使用一种高效在线规划求解方法对其进行实时求解。由于采用了在线求解的方法,本系统能够支持对各类道路类型、障碍物类型、智能体类型的灵活建模求解,是一种通用的智能驾驶规划方法。本方法所采用的在线规划求解方法利用自适应粒子滤波实现了信念状态的高效近似,并引入了信念填充方法对相似观察分支进行合并,这使得其能够高效地求解自动驾驶这类观察空间巨大的任务。
-
公开(公告)号:CN113110550A
公开(公告)日:2021-07-13
申请号:CN202110442229.0
申请日:2021-04-23
Applicant: 南京大学
Abstract: 本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。
-
公开(公告)号:CN113110546A
公开(公告)日:2021-07-13
申请号:CN202110422019.5
申请日:2021-04-20
Applicant: 南京大学
Abstract: 本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。
-
公开(公告)号:CN112957740A
公开(公告)日:2021-06-15
申请号:CN202110324418.8
申请日:2021-03-26
Applicant: 南京大学
Abstract: 本发明公开一种适配分层强化学习的自动分解游戏环境的方法,涉及到两个方面,一个是计算机视觉方面的弱监督语义分割技术,这一块为任务分解模块,另一个是强化学习中的分层强化学习的领域,这一块为策略训练模块。该方法能够大大降低强化学习的学习难度,以使得可以在更复杂的游戏环境中训练出更强大的游戏AI。这能够一方面提高游戏公司在设计游戏AI方面的生产力,另一方面也能够提高强化学习技术本身的适用性,使其能够进一步落地到更多的通用领域。
-
公开(公告)号:CN112051863A
公开(公告)日:2020-12-08
申请号:CN202011020526.8
申请日:2020-09-25
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种无人机自主反侦察及躲避敌方攻击的方法,基于Unity3D构建模拟器,构建敌我双方攻击的对战场景;通过模拟器预留的人类玩家接口,与规则写好的少量对手进行有限回合对抗,收集无人机躲避敌方反侦察及攻击的解决方案的样本数据;利用收集到的人类玩家逃跑数据进行学习,通过强化学习中的模仿学习进行学习,得到预训练模型;基于预训练模型,通过强化学习算法PPO实现在模拟器中的逃跑能力学习;将训练好的无人机躲避侦察及攻击模型与人类玩家进行测试并迁移到现实环境中。本发明提出的无人机自主躲避攻击的解决方案,在现实场景中应用意义重大,可以在成本较低的前提下训练出较好的无人机躲避攻击的策略,能够实际应用于无人机飞行控制领域。
-
公开(公告)号:CN111507845A
公开(公告)日:2020-08-07
申请号:CN202010339551.6
申请日:2020-04-26
Applicant: 南京大学
Abstract: 本发明公开一种基于交易者行为建模的金融证券交易模型的训练方法,主要包括基于机器学习、对抗学习构建的具有不同行为交易者的金融证券交易市场模拟器和基于强化学习的自动金融证券交易策略搜索两个部分。本发明可应用于多种金融证券交易,包括证券市场中的证券产品,如股票,债权,衍生市场产品如股指期货、期权、外汇期货等。本发明为金融证券交易市场人员和研究人员提供了实时动态的证券市场环境的训练方法,可以在不需要真实金钱、时间开销的情况下,开发与训练客观的金融证券交易策略。
-
公开(公告)号:CN111461122A
公开(公告)日:2020-07-28
申请号:CN202010419375.7
申请日:2020-05-18
Applicant: 南京大学
Abstract: 本发明公开一种证件信息检测与提取方法,使用合成的证件数据集,可以代替真实证件数据集进行Faster-RCNN检测模型的训练;使用基于深度神经网络的方法对证件信息进行检测与分类,无需特殊预处理;使用端到端的文字识别方法,对不定长的证件文字信息进行识别,不需分割。本发明不需要设定字符长度,更不需要识别单个汉字,避免了因切分错误而对识别率造成的影响,只需将图片输入网络模型中,即可得到文本信息。相对于传统的基于字符模板匹配的方法,在面对低亮度、低对比度、光照不均、变形、残缺、遮挡等问题时,具有很强的适应,精度远远优于传统方法。
-
公开(公告)号:CN111026127A
公开(公告)日:2020-04-17
申请号:CN201911373375.1
申请日:2019-12-27
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,使用情景相关的方案重用方法,通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景;通过在神经网络中添加卷积层来识别车辆周围的障碍物;通过在神经网络中添加长短时记忆单元来记忆重要的历史信息;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。
-
-
-
-
-
-
-
-
-