-
公开(公告)号:CN115660052A
公开(公告)日:2023-01-31
申请号:CN202211282171.9
申请日:2022-10-19
Applicant: 中国电波传播研究所(中国电子科技集团公司第二十二研究所)
Abstract: 本发明公开了一种融合后见之明思想的群体智能学习方法,包括如下步骤:步骤1,使用多智能体强化学习算法生成标准经验:步骤2,从标准经验中采样伪目标,构造伪目标集合:步骤3,依据伪目标,使用后见之明单元生成伪经验:步骤4,智能体结合标准经验和伪经验更新智能体策略—评判网络。本发明针对复杂环境下智能体探索时存在大量失败经验的问题进行了定制化设计,较好的解决了智能体仅能依据失败经验进行学习的问题,能有效提升算法的采样效率和学习效果。
-
公开(公告)号:CN115587339A
公开(公告)日:2023-01-10
申请号:CN202211282139.0
申请日:2022-10-19
Applicant: 中国电波传播研究所(中国电子科技集团公司第二十二研究所)
Abstract: 本发明公开了一种融合监督学习的智能决策方法,包括如下步骤:步骤1,构建深度强化学习网络:步骤2,分析环境,提取环境特征:步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:步骤4,将训练完成后的监督学习网络参数迁移给深度强化学习网络Actor部分并开启强化学习训练:步骤5,训练评价网络:步骤6,深度强化学习整体训练。本发明所公开的方法,通过迁移手段加快模型训练速度,在保证智能体包含有效知识方面,提出了融合监督学习的深度强化学习方法,实现预先为模型输入一些已有的专家经验,从基础上极大的提升了模型对环境的认知。
-