-
公开(公告)号:CN118606042B
公开(公告)日:2025-04-01
申请号:CN202410715390.4
申请日:2024-06-04
Applicant: 清华大学
IPC: G06F9/50 , G06N3/0442 , G06N3/006
Abstract: 本申请提出一种基于部分可观测多智能体强化学习的计算卸载方法及装置,涉及强化学习技术领域,其中,方法包括:获取用户智能体生成的计算任务,并将所述计算任务输入策略神经网络以生成卸载决策;根据所述卸载决策将计算任务卸载到计算节点,通过排队论的方式定义传输延迟和计算延迟并反馈给用户智能体;得到基于概率控制的反馈信息;根据所述反馈信息优化评价神经网络对当前状态的评估结果。使用户智能体在部分可观测的前提下分布式地做出决策,以概率控制的方式将无模型的优化问题转换为有模型的优化问题以更有效地搜索迭代逼近全局最优解,保障任务卸载的高效性与用户卸载策略的隐私性。
-
公开(公告)号:CN118606042A
公开(公告)日:2024-09-06
申请号:CN202410715390.4
申请日:2024-06-04
Applicant: 清华大学
IPC: G06F9/50 , G06N3/0442 , G06N3/006
Abstract: 本申请提出一种基于部分可观测多智能体强化学习的计算卸载方法及装置,涉及强化学习技术领域,其中,方法包括:获取用户智能体生成的计算任务,并将所述计算任务输入策略神经网络以生成卸载决策;根据所述卸载决策将计算任务卸载到计算节点,通过排队论的方式定义传输延迟和计算延迟并反馈给用户智能体;得到基于概率控制的反馈信息;根据所述反馈信息优化评价神经网络对当前状态的评估结果。使用户智能体在部分可观测的前提下分布式地做出决策,以概率控制的方式将无模型的优化问题转换为有模型的优化问题以更有效地搜索迭代逼近全局最优解,保障任务卸载的高效性与用户卸载策略的隐私性。
-