-
公开(公告)号:CN108255059A
公开(公告)日:2018-07-06
申请号:CN201810054083.0
申请日:2018-01-19
Applicant: 南京大学
IPC: G05B13/04
CPC classification number: G05B13/042
Abstract: 本发明公开了一种基于模拟器训练的机器人控制方法,对机器人待执行任务环境进行仿真建模,建立模拟器;在模拟器中,随机生成T个不同性能参数的机器人,各机器人分别训练策略,最终得到由各自策略构成的基策略集;在模拟器中,另外随机生成M个不同性能参数的机器人,并在此M个机器人中优化得到各机器人在执行任务时所使用的基策略集的最优组合权重,将各机器人执行随机动作序列得到的特征Fi(A)和最优组合权重分别作为回归模型的输入和标签,优化得到最优的回归模型θ;在模拟器中,另外随机生成N个不同性能参数的机器人,在这N个机器人上优化出最优动作;在同一任务中,使未知的不同性能参数的机器人执行最优动作A*,得到该机器人的最优动作策略。
-
公开(公告)号:CN112131661B
公开(公告)日:2024-07-23
申请号:CN202010946929.9
申请日:2020-09-10
Applicant: 南京大学
IPC: G06F30/15 , G06F30/27 , G05B17/02 , G06F18/214 , G06N3/048
Abstract: 本发明公开一种无人机自主跟拍运动目标的方法,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前的初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。相比以往的手工控制无人机航拍的方法,使用强化学习学出的飞行控制策略,由于训练采样丰富,往往能够面对各种复杂情况,有反应灵活、控制平稳、人力成本低等优点。
-
公开(公告)号:CN111861648B
公开(公告)日:2024-07-23
申请号:CN202010640550.5
申请日:2020-07-06
Applicant: 南京大学
IPC: G06Q30/0601 , G06F18/214 , G06N3/09
Abstract: 本发明公开一种基于模拟训练的价格谈判策略模型学习方法,该方法以(1)基于机器学习的价格谈判对手模拟器构建、(2)基于虚拟环境的智能价格谈判策略优化、(3)价格谈判策略的迁移优化三大模块为特点,解决以往智能价格谈判领域的方案试错成本高、泛化性能差、策略易受攻击的问题。
-
公开(公告)号:CN113269040B
公开(公告)日:2024-07-19
申请号:CN202110445391.8
申请日:2021-04-25
Applicant: 南京大学
IPC: G06F16/29
Abstract: 本发明公开一种结合图象识别与激光雷达点云分割的驾驶环境感知方法,包括:(1)在真实道路上,收集地面激光雷达点云数据和图像数据。(2)使用收集的图像数据作为参考,将激光雷达点云数据与图像数据进行标定,标记收集的激光雷达点云数据。(3)初始化点云分割网络,对标记的激光雷达点云数据进行训练,更新网络参数。(4)将训练好的网络移植到无人车工控机中,获得点云所属物体的类别。(5)对图像数据进行识别。(6)对分割后的激光雷达点云数据与图像识别后的图像数据进行融合,获取道路和物体所在的准确位置。本发明实时感知环境,克服了图像识别在天气不好、光线较差的情况下识别效果不佳的缺点。
-
公开(公告)号:CN113282747B
公开(公告)日:2023-07-18
申请号:CN202110465097.3
申请日:2021-04-28
Applicant: 南京大学
Abstract: 本发明公开一种基于自动机器学习算法选择的文本分类方法,基于级联式自动机器学习的思想,从多种机器学习算法中为文本分类任务配置最优算法,包括:(1)采用文本向量嵌入方法将文本语料数据编码成向量表示,生成文本分类数据集;(2)利用多摇臂赌博机算法从多个机器学习分类算法中选择一个算法;(3)利用超参优化方法自动为所选择的算法搜索一组超参数;(4)基于搜索到的超参数初始化相应算法的超参,并在文本分类数据集上训练模型;(5)重复步骤(2)到步骤(4),直到达到设定的迭代次数,将训练得到的多个分类模型中预测性能最好的模型用于文本分类任务。本方法能自动的为任务文本训练一个鲁棒的分类模型。
-
公开(公告)号:CN115972211A
公开(公告)日:2023-04-18
申请号:CN202310064893.5
申请日:2023-02-06
Applicant: 南京大学
IPC: B25J9/16
Abstract: 本发明公开一种基于模型不确定性和行为先验的控制策略离线训练方法,通过在机械臂操作离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,在加权贝尔曼更新的框架下仅使用机械臂离线数据来训练机械臂的控制策略。本发明能够使机械臂控制策略在离线训练的过程中有选择性地利用机械臂的离线数据集,减小不可信的机械臂数据样本对策略训练的影响,同时使可信的机械臂数据样本仍然能对策略训练起到正向作用,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。
-
公开(公告)号:CN115936958A
公开(公告)日:2023-04-07
申请号:CN202210372873.X
申请日:2022-04-11
Applicant: 南京大学
Abstract: 本发明公开了一种基于对抗学习的数据隐私保护方法,将基于深度生成对抗网络的换脸模型作为被攻击模型,提出一种能控制攻击效果的对抗攻击方法,从人脸图像的语义表示层面出发,实现攻击后生成可控制的具有语义特征的图片的方法;利用图像的语义可分解性,通过串联被攻击模型与语义判别器,修改语义标签来同时达成原始待保护图像的微量修改与生成图像的语义层面上的改变;在给定的人脸图像上添加扰动以使换脸模型作用于该人脸图像时所生成的换脸图像发生语义层面上的人脸外观属性明显改变,导致换脸失败。
-
公开(公告)号:CN115269565A
公开(公告)日:2022-11-01
申请号:CN202210527838.0
申请日:2022-05-16
Applicant: 南京大学
IPC: G06F16/215 , G06F16/2457 , G06F16/9535 , G06K9/62 , G06N3/08 , G06N3/04
Abstract: 本发明公开一种基于强化学习的异常推荐数据检测方法和系统,主要聚焦于推荐系统中的多模态异常数据识别,依赖强化学习算法,针对半监督异常数据,提出了一种针对“一致异常”和“不合异常”同时进行识别的方法。该方法通过和推荐系统进行交互,在用户数据收集之后,传入推荐系统之前,由本发明提出的方法进行识别,将其中的异常数据进行剔除,并将正常的数据传送给推荐系统,经由推荐系统处理之后将结果反馈给用户。本发明容易融合不同模态的信息,获得更好的效果。
-
公开(公告)号:CN113110550B
公开(公告)日:2022-09-23
申请号:CN202110442229.0
申请日:2021-04-23
Applicant: 南京大学
Abstract: 本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。
-
公开(公告)号:CN114970826A
公开(公告)日:2022-08-30
申请号:CN202210624473.3
申请日:2022-06-02
Applicant: 南京大学
Abstract: 本发明公开一种基于任务表征和队友感知的多智能体协作方法和装置,通过学习任务表征和队友感知,智能体能够在无通信的条件下学得高效协作策略,训练得到的智能体策略部署到多智能体系统中后,能够让智能体在与环境不断交互的过程中,根据自身的观测信息对任务有更好的感知与认识,然后结合观测中的队友的信息,与队友进行高效地配合与合作。
-
-
-
-
-
-
-
-
-