-
公开(公告)号:CN113276852B
公开(公告)日:2022-09-23
申请号:CN202110375328.1
申请日:2021-04-08
Applicant: 南京大学
Abstract: 本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。
-
公开(公告)号:CN113110546B
公开(公告)日:2022-09-23
申请号:CN202110422019.5
申请日:2021-04-20
Applicant: 南京大学
Abstract: 本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。
-
公开(公告)号:CN114911969A
公开(公告)日:2022-08-16
申请号:CN202210537164.2
申请日:2022-05-18
Applicant: 南京大学
IPC: G06F16/735 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于用户行为模型的推荐策略优化方法和系统,基于生成对抗模仿学习算法从用户与视频推荐系统的离线交互数据中构建出能够反映用户行为偏好的用户行为模型。通过让强化学习智能体与用户行为模型进行交互收集数据,并基于强化学习算法PPO来优化视频推荐策略的相关指标得到最优推荐策略,降低了强化学习直接在推荐系统上试错带来的成本代价,并且显著地提升了推荐策略的即时交互指标和长期交互指标。该最优推荐策略部署到真实的推荐系统进行在线评估,若相关指标不符合系统的要求,则继续收集新的交互数据并重复用户模拟器构建过程和推荐策略优化过程,直至推荐策略的相关指标满足系统要求。
-
公开(公告)号:CN114861992A
公开(公告)日:2022-08-05
申请号:CN202210408938.1
申请日:2022-04-19
Applicant: 南京大学 , 北京三快在线科技有限公司
Abstract: 本说明书公开了一种模型训练的方法、运力分配的方法以及装置。首先,获取历史数据。其次,将历史数据输入到待训练的生成器中,以预测在指定时刻配送区域内配送运力的运力数据,作为预测运力数据。而后,根据预测运力数据,以及确定出的在指定时刻配送区域对应的区域状况数据,构建第一训练样本。然后,将第一训练样本输入到预设的判别器中,确定第一训练样本属于真实数据的置信度,并确定第一训练样本对应的奖励值。最后,以最大化第一训练样本对应的奖励值,对生成器进行训练。本方法可以通过基于判别器确定出的第一训练样本属于真实数据的置信度,得到第一训练样本对应的奖励值,对生成器进行训练,使得生成器确定出更加准确的预测运力数据。
-
公开(公告)号:CN114581748A
公开(公告)日:2022-06-03
申请号:CN202210483252.9
申请日:2022-05-06
Applicant: 南京大学
IPC: G06V10/80 , G06V10/774 , G06K9/62 , G06N20/00
Abstract: 本发明公开一种基于机器学习的多智能体感知融合系统及其实现方法,多个智能体在行驶过程中通过摄像头采集道路环境图片,根据采集的道路环境图片制作训练数据集;使用训练数据集训练算法模型,并将算法模型部署在计算芯片上;使用过程:智能体行驶过程中,通过摄像头采集道路环境图片,并发送给计算芯片,在计算芯片中运行算法模型,提取图片中的特征,对多摄像头图片进行特征融合,对融合好的特征进行多任务预测,得到环境信息,使用通信模块将环境信息分享给周边智能体并获取周边智能体分享的环境信息,计算芯片将通信获取的环境信息进行融合,完善自身环境信息。本发明增加了智能体感知范围,降低了智能体感知盲区,提高了智能体的决策精度。
-
公开(公告)号:CN114265986A
公开(公告)日:2022-04-01
申请号:CN202210184063.1
申请日:2022-02-28
Applicant: 南京大学
IPC: G06F16/9535 , G06N5/02 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种融合知识图谱结构与路径语义的信息推送方法和系统,包括:基于用户物品行为图和物品关联知识图谱构建融合图;将异构节点表示映射到统一语义空间;使用图神经网络对融合图中的行为子图和物品子图逐层交替更新;对用户和物品节点之间游走采样得到路径集合并加权融合生成路径表示;联合用户和物品节点表示及其二者间路径表示计算匹配得分训练推荐系统模型;基于推荐系统模型对用户推送感兴趣的物品信息。本发明综合考量结构信息和路径语义计算用户和物品相似度进行物品信息推送,提供了一种更为合理的信息融合手段,此项技术可以应用于物品信息推送尤其是稀疏场景下的用户物品表示学习。
-
公开(公告)号:CN113297429A
公开(公告)日:2021-08-24
申请号:CN202110566210.7
申请日:2021-05-24
Applicant: 南京大学
IPC: G06F16/901 , G06F16/906 , G06N3/04 , G06Q50/00
Abstract: 本发明公开一种基于神经网络架构搜索的社交网络链路预测方法,包括以下步骤:步骤1,构建训练数据集;步骤2,利用神经网络架构搜索框架进行搜索,并对搜索框架进行改进;利用其搜索到的最优cell构建神经网络模型;步骤3,对社交网络进行链路预测。该方法可以自动探索更优的神经网络的结构,从而降低了在链路预测中人工设计神经网络的困难,并可以提高链路预测算法的预测效果。
-
公开(公告)号:CN113286275A
公开(公告)日:2021-08-20
申请号:CN202110441049.0
申请日:2021-04-23
Applicant: 南京大学
Abstract: 本发明公开一种基于多智能体强化学习的无人机集群高效通信方法,构建无人机飞行环境模拟器;随机选取一架无人机作为队长并标记;每架无人机获取并维护本机的局部观测值,将自身观测值进行编码并发送给队长;队长根据每架无人机的自身观测值,分别对全局观测值进行attention注意力机制处理,根据信息的重要程度来决定信息的权重,继而将计算好的观测值发送给每个队友,作为队友的全局观测值;训练阶段以全局观测值作为训练数据,直到策略网络收敛;执行阶段以分布式的方式进行;对队长的存活给一个额外的奖励。本发明可以在通信开销较小的条件下解决无人机集群集中式信息交互的问题,给予无人机自主决策权。
-
公开(公告)号:CN113283472A
公开(公告)日:2021-08-20
申请号:CN202110421943.1
申请日:2021-04-20
Applicant: 南京大学
IPC: G06K9/62
Abstract: 本发明公开一种基于零阶优化的数据特征选择方法,包括:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间;将数据特征选择作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间;采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化,以此作为优化算法的配置;之后,进行预设轮次的循环。本发明保留包裹式方法在性能上优势的同时,在选择特征中引入了零阶优化算法,有效的减少了模型训练的次数,使其效率与准确度均有良好的表现有更高的效率。另外,本发明对多种模型都可适用,应用场景广泛,具有更强的鲁棒性。
-
公开(公告)号:CN113283426A
公开(公告)日:2021-08-20
申请号:CN202110478018.2
申请日:2021-04-30
Applicant: 南京大学
Abstract: 本发明公开一种基于多目标神经网络搜索的嵌入式目标检测模型生成方法,选择嵌入式目标检测模型的基础检测结构并设定搜索空间;构建包含搜索空间中所有子网络的超网络;将训练好的超网络联合设定好的检测头在目标检测数据集上进行微调;在搜索前通过批量枚举搜索空间中的子网络,自动构建可推理的模型,并将模型部署到嵌入式设备上进行运行时间的测试,建立搜索空间中子网络结构编码与运行时延之间的速查表;使用强化学习的方法展开搜索;搜索过程使得网络结构朝着多个目标的方向优化;维护一个帕累托最优解集来获得符合多目标要求的目标检测模型;选择帕累托最优解集中的元素,将其对应的检测网络在嵌入式平台上进行编译部署。
-
-
-
-
-
-
-
-
-