-
公开(公告)号:CN119990245A
公开(公告)日:2025-05-13
申请号:CN202510144491.5
申请日:2025-02-10
Applicant: 电子科技大学
IPC: G06N3/092 , G06N3/0442 , G06N3/045
Abstract: 本发明公开了一种基于价值分解差异的多智能体对比探索方法,该方法利用价值分解的差异和对比原则,根据不同的价值分解估计之间的差异确定更新权重,设置更新权重并将这种差异作为更新过程中的内在目标。MACE架构包含两个值函数估计器,每个值函数估计器都负责估计两种VD方法对应的联合状态动作值函数Qjt和Qtot,利用Qjt和Qtot之间的差异来创建一个隐式奖励函数和加权机制来指导探索,用于更新两个内部函数估计器。这种方法确保了Q值较高的动作优先进行采样,而Q值较小的动作仍然有机会进行采样,增强了探索行为,不仅在学习速度和最终性能上明显优于基线,而且有效保持了完整的表示能力。