-
公开(公告)号:CN119247790B
公开(公告)日:2025-04-11
申请号:CN202411770037.2
申请日:2024-12-04
Applicant: 南京信息工程大学
IPC: G05B13/04
Abstract: 本发明提供了基于博弈论的非稳定环境下智能体策略协同方法,包括以下步骤:步骤1,获取智能体状态值和收益;步骤2,根据动态差分规划方法,得到智能体期望收益,并根据马氏性公式,得到智能体最优收益;步骤3,根据当前时刻的状态值和智能体期望收益,获得智能体最期望的动作选择;步骤4,当智能体处于动态环境中时,获取智能体期望收益随时间的变化,并根据变化后的期望收益,获得最优动作选择。本发明方法克服了传统博弈论和强化学习方法在动态不稳定环境下的局限性,为多智能体协同决策提供了一种新的、高效的解决方案。
-
公开(公告)号:CN119247790A
公开(公告)日:2025-01-03
申请号:CN202411770037.2
申请日:2024-12-04
Applicant: 南京信息工程大学
IPC: G05B13/04
Abstract: 本发明提供了基于博弈论的非稳定环境下智能体策略协同方法,包括以下步骤:步骤1,获取智能体状态值和收益;步骤2,根据动态差分规划方法,得到智能体期望收益,并根据马氏性公式,得到智能体最优收益;步骤3,根据当前时刻的状态值和智能体期望收益,获得智能体最期望的动作选择;步骤4,当智能体处于动态环境中时,获取智能体期望收益随时间的变化,并根据变化后的期望收益,获得最优动作选择。本发明方法克服了传统博弈论和强化学习方法在动态不稳定环境下的局限性,为多智能体协同决策提供了一种新的、高效的解决方案。
-