-
公开(公告)号:CN118493381A
公开(公告)日:2024-08-16
申请号:CN202410569772.0
申请日:2024-05-09
Applicant: 南京大学
Abstract: 本发明公开一种基于持续策略重振的离线到在线可泛化强化学习方法和装置,首先通过周期性的策略重振恢复策略网络的学习能力,打破机器人在在线学习过程中受到初始偏差的影响,从而提高针对在线分布的适应能力。接着,通过自适应的策略约束,根据策略在当前分布当中的竞争性行为表达更新策略约束的目标策略,这一机制基于机器人实时的策略访问分布和行为策略竞争表达,有效提高了机器人策略约束的稳定性和泛化性。最后,采用基于历史策略池的策略混合方法,进一步提高了机器人平衡记忆与探索的能力,确保在在线策略更新过程中,能避免发生灾难性遗忘导致策略崩塌。
-
公开(公告)号:CN118466940A
公开(公告)日:2024-08-09
申请号:CN202410600600.5
申请日:2024-05-15
Applicant: 南京大学
Abstract: 本发明公开一种根据用户需求对模型进行拆解复用的方法,当用户无法获取到与需求相符合的模型时,首先对用户的需求进行分解,变成多个相互独立的子任务,然后对每个子任务,检索并获取一个包含能子任务的能力的模型;对每个获取到的模型,从模型的每一层中挑选出和该子任务相关的神经元,组成新的层,并通过适应损失对该新层进行参数更新;在所有层都进行了相同的操作以后,把这些层组合起来构成对应该子任务的模型,并通过组合损失对该模型进行参数更新;在每个用户需要的子任务都有对应的模型了以后,将这些模型组合起来,通过打包损失对组合后的模型进行参数更新,从而获得与用户需求相应的模型。
-
公开(公告)号:CN112131660B
公开(公告)日:2024-07-26
申请号:CN202010944781.5
申请日:2020-09-10
Applicant: 南京大学
IPC: G06F30/15 , G06F30/27 , G06F30/28 , G06F18/214 , G06N3/092 , G06N3/0464
Abstract: 本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。
-
公开(公告)号:CN117575729A
公开(公告)日:2024-02-20
申请号:CN202311531198.1
申请日:2023-11-16
Applicant: 南京大学
IPC: G06Q30/0601 , G06F18/22 , G06F18/214 , G06N20/00
Abstract: 本发明公开一种基于表示与度量的用户个性化强化学习推荐系统,使用代表一般用户偏好的数据集和预训练模型进行初始化,并按时间步收集用户数据并更新强化学习模型。使用图像数据代表商品,将用户的操作历史通过表示学习方法得到便于计算和度量的表示,根据用户历史数据,按照强化学习策略给出推荐商品集,并依照用户的点击行为与界面浏览时间计算出奖励值。将表示、推荐商品集和奖励值拼接起来,存储到回放缓存中,度量缓存中数据与当前观测值的相似度并采样相似度较高的缓存序列,进一步更新强化学习的策略,以实现持续地与用户交互并给出推荐。本发明考虑商品的图像输入,提高了缓存中历史数据与同策略行为的相似度,有利于实现用户的个性化推荐。
-
公开(公告)号:CN110502660B
公开(公告)日:2024-02-13
申请号:CN201910803477.6
申请日:2019-08-28
Applicant: 南京大学
IPC: G06F16/583 , G06F16/55 , G06V10/74 , G06V10/764
Abstract: 本发明公开一种弱监督下的多距离度量图像检索方法,获取图像及图像数据的弱监督关联信息;初始化K个距离度量;在收集到的数据上优化距离度量;检查K个距离度量是否合法;对不合法的距离度量做投影,将其变换为合法的距离度量;重复上述过程,直到所有距离度量都不再产生较大的变化,返回获取的K个距离度量函数;用户输入一张图片,从数据库中检索与这张图片相似的图片;分别计算K个相似度函数给出的被检索图片和数据库中所有候选图片之间的相似度;利用聚合函数将K个相似度进行聚合,获取该图片在各种语义下和数据库中所有图片的整体相似度;返回整体相似度最高的若干张候选图片。本发明考虑图像之间多种相似性和内在关联,提高检索准确度。
-
公开(公告)号:CN117421128A
公开(公告)日:2024-01-19
申请号:CN202311564152.X
申请日:2023-11-22
Applicant: 南京大学
Abstract: 本发明公开一种基于协程粒度的强化学习系统环境采样引擎设计方法,所述环境采样引擎的架构包括以下组件:线程池、工作线程、环境协程和调度器协程;所述线程池包含了若干个工作线程,用于为环境采样引擎提供并行计算资源;所述工作线程包含了若干个协程,用于执行多环境下的环境采样代码;所述环境协程承载了强化学习任务的环境对象,用于执行单个环境的具体逻辑代码;所述调度器协程负责环境协程的调度工作,用于切换工作线程中当前执行的环境协程。本发明方法消除每个核心的空转时间,并保证上下文切换仅会在一个环境执行步骤中只会发生一次,从而提高环境采样过程的吞吐量。
-
公开(公告)号:CN116594601A
公开(公告)日:2023-08-15
申请号:CN202310575020.0
申请日:2023-05-22
Applicant: 南京大学
Abstract: 本发明公开一种基于知识库和多步提示的预训练大模型代码生成方法。首先获得新的问题描述与其对应的测试用例集合,如果不存在算法生成模型,获取大量历史问题描述和测试用例集合,代入提示模板并输入预训练模型生成算法描述,由人类数据标记员对算法描述根据其与知识库的符合程度进行打分和排序,构造训练集合训练知识奖赏模型,作为后续训练过程中的奖赏。将问题描述输入算法生成模型,生成算法描述;将算法描述输入知识奖赏模型评估与知识库的符合程度和代码生成模型评估测试样例通过率,两者作为算法生成模型的优化目标,更新模型参数直至训练误差低于预设阈值。测试过程中生成算法描述与代码解决方案,重复该过程直至代码通过全部测试用例。
-
公开(公告)号:CN111461264B
公开(公告)日:2023-06-13
申请号:CN202010448712.5
申请日:2020-05-25
Applicant: 南京大学
IPC: G06V10/764 , G06V10/82 , G06N3/0475 , G06N3/094
Abstract: 本发明公开一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据;根据类别个数N准备N个生成对抗网络模型;训练第i个类别的图像数据,i∈{1,2,...,N};训练生成对抗网络Gi,直到生成对抗网络生成的图像数据与原数据集图像数据的相似度达到预设值;固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi;固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成;对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成;将N个判别器并联排列组合成判别器组;将图片输入到判别器组,每个判别器将对图片输出预测结果;计算最终预测结果。
-
公开(公告)号:CN110245723B
公开(公告)日:2023-06-09
申请号:CN201910565453.1
申请日:2019-06-27
Applicant: 南京大学
IPC: G06V10/774 , G06V10/764
Abstract: 本发明公开了一种安全可靠的图像分类半监督机器学习方法及装置,方法包括:获取目标图像数据集;构建少量的验证图像数据集;对目标数据集中的未标记数据进行赋值并根据机器学习算法在目标数据集上训练得到机器学习模型;计算模型在验证数据集上的预测性能和安全性;更新未标记数据的赋值策略使得训练得到的模型在验证数据集上的预测性能和安全性不断调优,直到收敛。最终训练得到的模型确定为目标图像数据集的机器学习模型。本发明适用于图像分类任务中常见的“数据多但标记少”的数据分析情况。
-
公开(公告)号:CN113467515B
公开(公告)日:2023-03-10
申请号:CN202110828301.3
申请日:2021-07-22
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法,利用在真实飞行环境中采集到的状态转移历史轨迹数据,利用GAIL+BC算法构建基于模仿学习的虚拟环境;在虚拟环境中利用强化学习算法训练无人机飞行策略;将策略迁移到真实环境中。本发明使无人机能够在复杂多变的环境中,实现有效,稳定的自主飞行控制;通过利用历史交互数据构建虚拟环境,并让强化学习Agent在虚拟环境中训练的方式,避免了强化学习的高试错成本弊端,同时不再依赖专家知识和人力,并提高了模型对特殊环境状态的适应能力。通过GAIL算法和BC算法两种算法的结合,避免了基于纯模仿学习算法的收敛性问题,也避免了纯BC算法的模型偏移问题,解决了传统的虚拟环境重构算法的应用难题。
-
-
-
-
-
-
-
-
-