基于深度强化学习的无人艇天气自适应避障方法

    公开(公告)号:CN113176776B

    公开(公告)日:2022-08-19

    申请号:CN202110235684.3

    申请日:2021-03-03

    Applicant: 上海大学

    Abstract: 本发明公开了一种基于深度强化学习的无人艇天气自适应避障方法,包括:基于PPO算法构建深度强化网络;构建无人艇避障的仿真环境与无人艇模型,定义无人艇模型的状态空间包括:无人艇模型上的图像传感器采集的环境图像与预设目标点的三维坐标信息;动作空间包括:无人艇模型的转向角度与推力;设计基于时序距离的奖励函数作为优化依据;利用深度强化网络采样不同天气下无人艇模型在与仿真环境交互时产生的样本数据;基于PPO算法,利用样本数据对深度强化网络进行训练得到不同天气下无人艇的自动避障模型。本发明方法能够实时感知天气变化,动态选取预训练避障模型,使无人艇模型适应不同的天气。

    基于深度强化学习的无人艇天气自适应避障方法

    公开(公告)号:CN113176776A

    公开(公告)日:2021-07-27

    申请号:CN202110235684.3

    申请日:2021-03-03

    Applicant: 上海大学

    Abstract: 本发明公开了一种基于深度强化学习的无人艇天气自适应避障方法,包括:基于PPO算法构建深度强化网络;构建无人艇避障的仿真环境与无人艇模型,定义无人艇模型的状态空间包括:无人艇模型上的图像传感器采集的环境图像与预设目标点的三维坐标信息;动作空间包括:无人艇模型的转向角度与推力;设计基于时序距离的奖励函数作为优化依据;利用深度强化网络采样不同天气下无人艇模型在与仿真环境交互时产生的样本数据;基于PPO算法,利用样本数据对深度强化网络进行训练得到不同天气下无人艇的自动避障模型。本发明方法能够实时感知天气变化,动态选取预训练避障模型,使无人艇模型适应不同的天气。

    智能体信息交互对象确定方法、系统、电子设备及介质

    公开(公告)号:CN116628359A

    公开(公告)日:2023-08-22

    申请号:CN202310707964.9

    申请日:2023-06-14

    Applicant: 上海大学

    Abstract: 本发明公开一种智能体信息交互对象确定方法、系统、电子设备及介质,通过获取当前协作场景中目标智能体的自身观测信息和当前非目标智能体的位置信息;根据目标智能体的自身观测信息和当前非目标智能体的位置信息,利用交互偏好网络,对目标智能体与非目标智能体的交互概率和目标智能体与当前非目标智能体的不交互概率进行预测;根据交互概率和所述不交互概率,确定目标智能体的交互对象。其中,使用了KL散度实现智能体之间交互偏好的度量,利用交互偏好值确定出的训练样本集对交互偏好网络进行训练,确定交互偏好网络。本发明提高了多智能体间信息交互的效率。

    一种融合局部目标特征与协作特征的多智能体信息交互方法

    公开(公告)号:CN115294474A

    公开(公告)日:2022-11-04

    申请号:CN202210812033.0

    申请日:2022-07-11

    Applicant: 上海大学

    Abstract: 本发明公开了一种融合局部目标特征与协作特征的多智能体信息交互方法。该方法包括:(1)初始化“多目标协作导航”任务场景,其中每个智能体包括一个动作生成器和一个动作评价器;(2)构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象;(3)对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测输入到动作生成器中,输出智能体的动作;(4)循环步骤2‑3,收集交互轨迹样本;(5)使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标。

    一种多智能体协作控制方法、设备、介质及产品

    公开(公告)号:CN117764110A

    公开(公告)日:2024-03-26

    申请号:CN202410072515.6

    申请日:2024-01-17

    Applicant: 上海大学

    Abstract: 本发明公开一种多智能体协作控制方法、设备、介质及产品,涉及智能体协作技术领域,该方法包括:利用任务场景中智能体与环境实体之间的语义关系进行建模,得到场景语义模型;对所述场景语义模型中各智能体的感知数据进行语义表达;根据各智能体感知数据的语义表述所述场景语义模型中智能体与环境实体之间的空间拓扑关系,构建各智能体的语义信息交互链路;根据各智能体的语义信息交互链路,生成各智能体的场景语义交互认知特征;将各智能体当前时刻的场景语义交互认知特征输入智能体决策模型,得到当前时刻的智能体协作策略;所述智能体决策模型为采用训练集对智能体决策网络训练得到的。本发明提高了智能体协作策略的有效性。

    基于全局状态近似的智能体交互信息聚合方法、系统、设备、介质及产品

    公开(公告)号:CN119128791A

    公开(公告)日:2024-12-13

    申请号:CN202411147009.5

    申请日:2024-08-21

    Applicant: 上海大学

    Abstract: 本申请公开了一种基于全局状态近似的智能体交互信息聚合方法、系统、设备、介质及产品,涉及计算机技术领域,该方法包括确定当前分级协作收集任务场景,并对当前分级协作收集任务场景进行初始化,然后将初始化后的当前分级协作收集任务场景中的当前智能体自身生成的交互信息以及队友智能体传递的交互信息集合作为目标数据,并对目标数据进行预处理,将预处理后的目标数据输入至智能体交互信息聚合模型中对智能体交互信息进行聚合,输出智能体交互信息聚合结果预测值。本申请能够提高交互信息聚合的准确性和历史信息的利用率。

Patent Agency Ranking