-
公开(公告)号:CN117291255A
公开(公告)日:2023-12-26
申请号:CN202311291584.8
申请日:2023-10-08
Applicant: 大连理工大学
Abstract: 本发明提出了一种基于中继训练和博弈的分层强化学习方法,属于人工智能中的强化学习领域。本发明将博弈思想融入强化学习中,并借助分层结构训练出可以提出目标任务的高层策略和负责执行目标任务的低层策略,从而缓解强化学习维数灾难以及采样效率低下的问题。特别地,在低层策略训练过程中,智能体在博弈中学习,并引入辅助惩罚和中继机制:辅助惩罚控制训练任务的难度,中继机制扩大智能体探索环境的范围,从而使得智能体更加了解环境,极大地提升了训练效果。