-
公开(公告)号:CN115587339A
公开(公告)日:2023-01-10
申请号:CN202211282139.0
申请日:2022-10-19
Applicant: 中国电波传播研究所(中国电子科技集团公司第二十二研究所)
Abstract: 本发明公开了一种融合监督学习的智能决策方法,包括如下步骤:步骤1,构建深度强化学习网络:步骤2,分析环境,提取环境特征:步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:步骤4,将训练完成后的监督学习网络参数迁移给深度强化学习网络Actor部分并开启强化学习训练:步骤5,训练评价网络:步骤6,深度强化学习整体训练。本发明所公开的方法,通过迁移手段加快模型训练速度,在保证智能体包含有效知识方面,提出了融合监督学习的深度强化学习方法,实现预先为模型输入一些已有的专家经验,从基础上极大的提升了模型对环境的认知。