发明公开
- 专利标题: 一种训练智能体控制网络模型的方法和系统
-
申请号: CN202311865791.X申请日: 2023-12-29
-
公开(公告)号: CN118011793A公开(公告)日: 2024-05-10
- 发明人: 兴军亮 , 甘耀中 , 吴哲 , 陶品 , 史元春
- 申请人: 启元实验室
- 申请人地址: 北京市海淀区紫雀路55号院8号楼-1至6层101
- 专利权人: 启元实验室
- 当前专利权人: 启元实验室
- 当前专利权人地址: 北京市海淀区紫雀路55号院8号楼-1至6层101
- 代理机构: 北京同进知识产权代理事务所
- 代理商 李霞
- 主分类号: G05B13/04
- IPC分类号: G05B13/04
摘要:
本发明公开了训练智能体控制网络模型的方法,其包括:建立智能体控制网络模型。利用策略网络通过初始策略,训练得到与智能体状态信息对应的智能体的轨迹信息。根据初始策略和策略差异阈值,筛选出目标策略。将智能体状态信息和智能体的轨迹信息输入价值网络,根据智能体的长远价值信息训练价值网络。本发明中通过策略之间的距离,筛选轨迹样本数据和目标策略,优化智能体控制网络模型的训练数据。解决了异策略模型训练中数据分布不规则、模型稳定性差的问题。提高了样本的利用效率,保证了训练模型用于智能体控制时的稳定性和可靠性。同时,本发明还提供使用训练智能体控制网络模型的控制方法。