一种训练智能体控制网络模型的方法和系统

发明公开

CN118011793A 一种训练智能体控制网络模型的方法和系统审中-实审

请登陆查看更多内容

专利标题： 一种训练智能体控制网络模型的方法和系统
申请号： CN202311865791.X

申请日： 2023-12-29
公开(公告)号： CN118011793A

公开(公告)日： 2024-05-10
发明人: 兴军亮 , 甘耀中 , 吴哲 , 陶品 , 史元春
申请人： 启元实验室
申请人地址： 北京市海淀区紫雀路55号院8号楼-1至6层101
专利权人： 启元实验室
当前专利权人： 启元实验室
当前专利权人地址： 北京市海淀区紫雀路55号院8号楼-1至6层101
代理机构： 北京同进知识产权代理事务所
代理商 李霞
主分类号： G05B13/04
IPC分类号： G05B13/04

摘要：

本发明公开了训练智能体控制网络模型的方法，其包括：建立智能体控制网络模型。利用策略网络通过初始策略，训练得到与智能体状态信息对应的智能体的轨迹信息。根据初始策略和策略差异阈值，筛选出目标策略。将智能体状态信息和智能体的轨迹信息输入价值网络，根据智能体的长远价值信息训练价值网络。本发明中通过策略之间的距离，筛选轨迹样本数据和目标策略，优化智能体控制网络模型的训练数据。解决了异策略模型训练中数据分布不规则、模型稳定性差的问题。提高了样本的利用效率，保证了训练模型用于智能体控制时的稳定性和可靠性。同时，本发明还提供使用训练智能体控制网络模型的控制方法。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G05	控制；调节
G05B	一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置（应用流体作用的一般流体压力执行器或系统入F15B；阀门本身入F16K；仅按机械特征区分的入G05G；传感元件见相应小类，例如G12B，G01、H01的小类；校正单元见相应的小类，例如H02K）
G05B13/00	自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统（G05B19/00优先；机器学习G06N 20/00）
G05B13/02	.电的
G05B13/04	..包括使用模型或模拟器的