-
公开(公告)号:CN115577751A
公开(公告)日:2023-01-06
申请号:CN202211269458.8
申请日:2022-10-18
Applicant: 大连理工大学
Abstract: 本发明属于人工智能应用技术领域,具体涉及一种面向多智能体感知决策的迁移学习方法。本发明致力于解决多智能体协作不充分的问题,充分考虑多智能体环境的动态性以及复杂性带来的挑战,构建基于深度强化学习的多智能体协作模型,并基于此设计了一种基于迁移学习的参数聚合算法。本发明方法通过引入神经网络模拟值函数,进而提高模型的处理能力,利用迁移学习进行联合建模,最终得到一份最合适的模型参数,提升了模型的泛化能力,可支持多智能体应对复杂多变的环境。
-
公开(公告)号:CN116091550A
公开(公告)日:2023-05-09
申请号:CN202310202875.9
申请日:2023-03-06
Applicant: 大连理工大学
IPC: G06T7/246 , G06N3/08 , G06N3/0464
Abstract: 本发明属于计算机视觉与多目标跟踪领域,涉及一种针对目标非线性运动场景下的多目标跟踪算法。本发明针对现有多目标跟踪器在非线性运动场景下往往存在的目标‑轨迹匹配关联不上的问题,对现有多目标跟踪器的检测特征与目标重识别特征的提取方式进行了改进,同时为了更加契合非线性运动条件下的目标‑轨迹关联匹配的特点,在具体匹配关联阶段提出了一种新的关联策略。本发明提高计算成本的同时,改善了现有多目标跟踪器在行人非线性运动场景下难以进行目标关联的问题,提高了多目标跟踪器在行人非线性运动场景下的跟踪效果。
-
公开(公告)号:CN115587615A
公开(公告)日:2023-01-10
申请号:CN202211292921.0
申请日:2022-10-21
Applicant: 大连理工大学
Abstract: 本发明属于计算机应用技术领域,具体涉及一种感知行动回路决策的内在奖励生成方法。本发明中,首先,搭建状态预测网络,并收集智能体训练过程中的环境状态与智能体动作数据对环境状态变化进行预测建模。其次,在强化学习训练过程中利用已训练的状态预测网络模型预测环境状态变化并生成预测差内在奖励。最后,将生成的预测差内在奖励与外部奖励结合,形成新的奖励以供策略更新网络使用。本发明构建SGBRT网络对环境状态进行预测并生成内在奖励,且利用内在奖励以加快策略更新网络的训练过程并提高训练效果。
-
-