-
公开(公告)号:CN119443202A
公开(公告)日:2025-02-14
申请号:CN202411580804.3
申请日:2024-11-07
Applicant: 南京大学
IPC: G06N3/094 , G06N3/092 , G06F18/214
Abstract: 本发明公开一种基于强化学习的多无人机协同对抗学习方法,设计基于多智能体间的通信机制并结合长短期记忆网络的特征聚合提取模块,准确高效地提取战场态势特征;采用分层强化学习方法,引入底层机动控制模块和上层作战决策模块,分别实现底层控制和上层决策,基于高效环境并行模块进行训练,提升复杂作战场景下的作战策略训练效率;此外,通过基于种群演化多样化的多智能体博弈训练模块提升了作战策略的泛化能力。本发明能够有效提取战场态势特征,进行高效协同作战训练,从而适应复杂多变的战场环境,提高无人机自主协同作战的泛化能力。
-
公开(公告)号:CN114911157B
公开(公告)日:2025-01-03
申请号:CN202210366719.1
申请日:2022-04-08
Applicant: 南京大学
IPC: G05B13/04
Abstract: 本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及系统,该控制方法及系统主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务,本发明采用部分可观测环境下的强化学习算法。系统包括滤波单元、规划单元、回放池、学习单元。在本发明中,使用状态粒子表示信念状态以减少信念状态更新的计算复杂度,使用基于学得模型的模拟规划以提高样本利用率,使用重采样方法防止粒子退化问题,使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习,并在实际机器人导航任务中使用学得的策略。
-
公开(公告)号:CN113283986B
公开(公告)日:2024-06-25
申请号:CN202110465112.4
申请日:2021-04-28
Applicant: 南京大学
IPC: G06Q40/04 , G06N3/0442
Abstract: 本申请公开了一种基于自注意力机制的算法交易系统及基于该系统的算法交易模型的训练方法。其中系统包括:全连接神经网络模块,用于对输入的交易数据进行特征提取、转换和映射;自注意力机制模块,用于衡量不同时刻特征不同的重要程度,并提取其中较为重要的有效信息;长短时记忆网络模块,用于根据自注意力机制模块处理后的序列化信息输出交易决策。本申请训练方法包括使用近端策略优化算法训练一个策略函数π和一个值函数V,其参数分别为θ和#imgabs0#。本申请的有益之处在于提供了一种结合了近端策略优化算法和长短时记忆网络的优势从而实现深层次挖掘市场特征的基于自注意力机制的算法交易系统及基于该系统的算法交易模型的训练方法。
-
公开(公告)号:CN111461122B
公开(公告)日:2024-03-22
申请号:CN202010419375.7
申请日:2020-05-18
Applicant: 南京大学
IPC: G06V30/41 , G06V30/42 , G06V30/148 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明公开一种证件信息检测与提取方法,使用合成的证件数据集,可以代替真实证件数据集进行Faster‑RCNN检测模型的训练;使用基于深度神经网络的方法对证件信息进行检测与分类,无需特殊预处理;使用端到端的文字识别方法,对不定长的证件文字信息进行识别,不需分割。本发明不需要设定字符长度,更不需要识别单个汉字,避免了因切分错误而对识别率造成的影响,只需将图片输入网络模型中,即可得到文本信息。相对于传统的基于字符模板匹配的方法,在面对低亮度、低对比度、光照不均、变形、残缺、遮挡等问题时,具有很强的适应,精度远远优于传统方法。
-
公开(公告)号:CN117689039A
公开(公告)日:2024-03-12
申请号:CN202311725468.2
申请日:2023-12-15
Applicant: 南京大学
Abstract: 本发明公开一种基于乐观性原则和深度模型的智能体动作生成策略训练方法,将机器人行走任务建模为一个马尔科夫决策过程 ,其中S表示状态空间,指行走过程中机器人能感知到的状态信息;A表示动作空间,包含机器人能执行的所有动作;T表示状态转移函数,给定了机器人在任意状态采取任意动作后转移到的新状态的概率分布;R表示奖励函数,给定了机器人在任意状态采取任意动作后所收到的奖励,γ表示折扣因子;机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程,为决策提供信息;机器人行走策略训练方法包括三个核心模块:基于乐观性原则的深度模型构建,基于深度模型的不确定性规划,以及机器人行走策略的训练。
-
公开(公告)号:CN117075470A
公开(公告)日:2023-11-17
申请号:CN202310976077.1
申请日:2023-08-04
Applicant: 南京大学
Abstract: 本发明公开一种基于内部逻辑归纳的机器人决策策略训练方法及系统,在像素‑符号混合形式输入的机器人决策环境下,该方法针对不同输入形式的特点,将深度强化学习算法和规则学习算法整合,分别处理像素输入和符号输入。在机器人决策策略训练过程中,规则学习算法从少量高质量样本中归纳出有价值的命题逻辑知识,然后使用归纳的命题逻辑知识进行奖励工程设计,帮助深度强化学习算法的训练,提高训练方法的样本数据利用效率。
-
公开(公告)号:CN116910298A
公开(公告)日:2023-10-20
申请号:CN202310918889.0
申请日:2023-07-25
Applicant: 南京大学
Abstract: 本发明公开一种基于哈希词典和深度网络的音乐推荐方法,对于一首歌曲,其预定的类别或风格已经有其先验的风格分类,一首歌曲能包含多种类型风格;通过计算机统计确定音乐的分类或类别,设用户听取某个音乐时间为t分钟,总共有N首歌,听取时间分别为t1,t2,..,tN分钟,得到一个矩阵B,其中元素Bi,j=tj,代表用户i听取歌曲j的时长为tj分钟;矩阵B用于统计计算,根据听取时间的大小比较出用户听取时间最多的某类型歌曲。
-
公开(公告)号:CN113297429B
公开(公告)日:2023-09-29
申请号:CN202110566210.7
申请日:2021-05-24
Applicant: 南京大学
IPC: G06F16/901 , G06F16/906 , G06N3/0464 , G06Q50/00
Abstract: 本发明公开一种基于神经网络架构搜索的社交网络链路预测方法,包括以下步骤:步骤1,构建训练数据集;步骤2,利用神经网络架构搜索框架进行搜索,并对搜索框架进行改进;利用其搜索到的最优cell构建神经网络模型;步骤3,对社交网络进行链路预测。该方法可以自动探索更优的神经网络的结构,从而降低了在链路预测中人工设计神经网络的困难,并可以提高链路预测算法的预测效果。
-
公开(公告)号:CN113282721B
公开(公告)日:2023-07-21
申请号:CN202110464526.5
申请日:2021-04-28
Applicant: 南京大学
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06N3/045
Abstract: 本申请提供了一种基于网络结构搜索的视觉问答方法,包括如下步骤:采用第一人工神经网络模型对原始图片进行特征提取;采用第二人工神经网络模型对文本信息进行特征提取;待搜索的网络结构框架为编码‑解码器框架,定义三种搜索算子供框架网络搜索,所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征;使用基于梯度交替优化策略搜索网络结构的架构权重和算子的操作权重;使搜索网络按照多分类的方法输出候选词向量,并选择概率最大的词向量作为答案输出。本申请的有益之处在于提供了一种能在更大的空间搜索出更好的效果的基于网络结构搜索的视觉问答方法。
-
公开(公告)号:CN116360435A
公开(公告)日:2023-06-30
申请号:CN202310294489.7
申请日:2023-03-24
Applicant: 南京大学
IPC: G05D1/02 , G06N3/0442 , G06N3/045 , G06N3/092 , G06N7/01
Abstract: 本发明公开一种基于情节记忆的多智能体协同策略的训练方法和系统,利用情节记忆方法,在收集训练数据时,记录各个机器人不同状态下经历的情节与对应累计回报,并将该情节与对应回报作为策略训练时机器人的额外目标。通过多机器人强化学习方法,使得各机器人能够在有限数据下快速学习高效协同策略,训练得到的机器人协同策略使智能体在决策时,既能考虑目前的状态价值函数,又能考虑到长期的情节回报,从而实现综合决策。本发明在实际场景中仅通过少量训练数据实现快速策略训练,以有效应对动态开放场景下的合作任务。
-
-
-
-
-
-
-
-
-