Patent search ap:("河南大学") AND inv:"程翔" Page 1

1.

发明公开
一种基于多智能体协同优化的无人机资源调度方法有权

公开(公告)号：CN114371728A

公开(公告)日：2022-04-19

申请号：CN202111525070.5

申请日：2021-12-14

Applicant: 河南大学

Inventor： 周毅 , 程翔 , 刘志祥 , 李思 , 石华光 , 宁念文 , 张西镚

IPC: G05D1/10

Abstract: 本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法，优化多无人机系统的协同调度能力，首先以任务环境中智能体状态st作为多智能体系统输入，然后通过策略网络输出动作at并由评价网络评估，最后输出由连续动作组成的调度策略π；针对连续覆盖和持续性服务两个目标，提出了特殊状态空间和动作空间，通过动作评估机制确定最优调度策略，构造了合理的动作奖励函数rt，使低能耗和连续覆盖的策略成为多智能体系统更好的选择，在算法中设置的经验回放单元随状态和动作空间的更新而改变，通过误差和损失函数L(θQ)来训练输出高评估值动作at，并以此方式共同更新其他智能体，对任务环境中其他智能体的策略进行联合评估，提高多无人机系统的协同调度能力。

2.

发明公开
一种考虑公平性原则的多智能体协同资源分配方法审中-实审

公开(公告)号：CN115187056A

公开(公告)日：2022-10-14

申请号：CN202210806132.8

申请日：2022-07-08

Applicant: 河南大学

Inventor： 周毅 , 刘志祥 , 石华光 , 宁念文 , 程翔 , 李思

IPC: G06Q10/06 , G06Q50/06 , G06Q50/02 , G06N3/04 , G06N3/08

Abstract: 本发明提出了一种考虑公平性原则的多智能体协同资源分配方法，涉及多智能体协同的技术领域，其步骤如下：每个智能体以无人机的观测值和公平性奖励作为Actor网络的输入；Actor网络将t时刻的状态和公平性奖励作为输入，输出当前时刻的动作，利用当前状态和动作用于估计Q值；根据估计Q值与实际Q值计算策略损失函数训练Critic网络，利用最大Q值作为Actor网络的反馈，输出智能体的公平动作集；利用基尼系数判断公平动作集中的动作是否满足公平性；利用训练的公平性策略，根据无人机的不同状态，进行有次序的充电。本发明保证智能体间的公平竞争，提高多智能体系统的协同能力；加强无人机的续航能力，提高工作效率。

3.

发明授权
一种基于多智能体协同优化的无人机资源调度方法有权

公开(公告)号：CN114371728B

公开(公告)日：2023-06-30

申请号：CN202111525070.5

申请日：2021-12-14

Applicant: 河南大学

Inventor： 周毅 , 程翔 , 刘志祥 , 李思 , 石华光 , 宁念文 , 张西镚

IPC: G05D1/10

Abstract: 本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法，优化多无人机系统的协同调度能力，首先以任务环境中智能体状态st作为多智能体系统输入，然后通过策略网络输出动作at并由评价网络评估，最后输出由连续动作组成的调度策略π；针对连续覆盖和持续性服务两个目标，提出了特殊状态空间和动作空间，通过动作评估机制确定最优调度策略，构造了合理的动作奖励函数rt，使低能耗和连续覆盖的策略成为多智能体系统更好的选择，在算法中设置的经验回放单元随状态和动作空间的更新而改变，通过误差和损失函数L(θQ)来训练输出高评估值动作at，并以此方式共同更新其他智能体，对任务环境中其他智能体的策略进行联合评估，提高多无人机系统的协同调度能力。

Patent Agency Ranking