-
公开(公告)号:CN117151205A
公开(公告)日:2023-12-01
申请号:CN202311069248.9
申请日:2023-08-24
Applicant: 电子科技大学
IPC: G06N3/092 , G06N3/096 , G06N3/0464 , G06V10/82
Abstract: 本发明涉及机器学习和强化学习技术领域,公开了一种基于多先验策略的强化学习智能决策方法,解决现有技术中利用强化学习进行智能决策时由于奖励稀疏、样本利用率低、环境过拟合导致的决策困难问题。该方法利用目标策略网络和先验策略指导智能体进行决策,将决策产生的交互数据放入重放缓冲区;随后从重放缓冲区中进行数据采样,获取一个训练集用于目标策略网络训练;然后根据训练数据计算综合损失函数,利用梯度下降法对目标策略网络进行更新;最后更新重放缓冲区种所用训练数据的被采样概率;在智能决策过程,将智能体观测的环境状态输入至目标策略网络中,根据网络输出执行动作并完成状态转移,随后重复上述观察‑决策过程,直至决策任务完成。