专利检索 ap:("大连海事大学" OR "上海交通大学" OR "深圳市赢合科技股份有限公司") AND inv:"温家一" 第 1 页

1.

发明公开
一种无人系统集群多目标博弈对抗方法审中-实审

公开(公告)号：CN118068703A

公开(公告)日：2024-05-24

申请号：CN202410116153.6

申请日：2024-01-26

申请人： 大连海事大学 , 上海交通大学 , 深圳市赢合科技股份有限公司

发明人： 彭周华 , 温家一 , 夏枫倍 , 王安青 , 张卫东 , 朱景伟 , 谢威 , 古楠 , 王丹 , 王浩亮 , 金春雷

IPC分类号： G05B13/04 , G06N3/006 , G06N3/045 , G06N3/092 , G06N5/04

摘要： 本发明提供了一种无人系统集群多目标博弈对抗方法，包括如下步骤：S1、设定无人系统集群多目标追踪场景，给定无人系统集群数目与追踪目标数目，定义控制目标；S2、建立分布式部分可观测马尔科夫博弈模型；S3、构建分层目标过滤注意力网络；S4、建立多智能体深度确定性策略梯度算法；S5、设定训练轮次与每轮训练步数，开始训练，得到训练好的多智能体深度确定性策略梯度算法；S6、在进行无人系统集群多目标对抗博弈时，将局部观测信息输入到训练好的多智能体深度确定性策略梯度算法中，获取下一时刻的执行动作。本发明设计了一种新的目标权重分配算法，自动衡量每个目标的重要性，从而提高任务完成的精度与效率。

2.

发明公开
一种三维空间强化学习路径规划方法审中-实审

公开(公告)号：CN118012111A

公开(公告)日：2024-05-10

申请号：CN202410117055.4

申请日：2024-01-26

申请人： 大连海事大学 , 上海交通大学 , 湖北三江船艇科技有限公司

发明人： 彭周华 , 温家一 , 罗铭焌 , 王安青 , 张卫东 , 朱景伟 , 谢威 , 刘陆 , 王浩亮 , 王丹 , 何鹭飞

IPC分类号： G05D1/485 , G05D101/10

摘要： 本发明提供了一种三维空间强化学习路径规划方法，包括如下步骤：S1、设定无人水下潜航器在水下环境中的路径规划任务场景，构建无人水下潜航器路径规划控制目标；S2、确定马尔可夫模型的五元组；S3、建立柔性演员‑评论家算法框架；将柔性演员‑评论家算法框架与策略参数相结合，将噪声作为状态的函数合并，得到平滑的探索路径，然后初始化无人水下潜航器状态；S4、进行训练，获取无人艇集群的训练样本数据，然后输出探索路径；本发明提出了一种能够平衡能量消耗与航行距离，并且能在三维空间作业领域中得到广泛应用的路径规划控制器结构及设计方法。

3.

发明公开
面向无人艇集群多目标追踪策略的强化学习推理方法审中-实审

公开(公告)号：CN118012057A

公开(公告)日：2024-05-10

申请号：CN202410117061.X

申请日：2024-01-26

申请人： 大连海事大学 , 上海交通大学 , 深圳市镭神智能系统有限公司

发明人： 彭周华 , 温家一 , 夏枫倍 , 王安青 , 张卫东 , 朱景伟 , 谢威 , 古楠 , 王浩亮 , 王丹 , 胡小波

IPC分类号： G05D1/43 , G05D109/30

摘要： 本发明提供了一种面向无人艇集群多目标追踪策略的强化学习推理方法，包括如下步骤：S1、基于单体无人艇离散动力学模型构建多目标追踪控制目标；S2、采用分布式马尔可夫模型对无人艇集群多目标追踪控制问题进行建模并确定分布式部分可观测马尔可夫模型的五元组；S3、根据构建的模型五元组，建立多智能体深度确定性策略梯度算法框架；S4、将硬注意力机制融入多智能体深度确定性策略梯度算法框架；S5、设定网络训练参数进行训练，获取无人艇集群的状态信息，输出最优控制策略；本发明将博弈论原理引入多智能体深度确定性策略梯度算法的奖励函数优化，通过优化各无人艇间的任务分配，实现了无人艇集群在多目标追踪任务中的最佳协同。