-
公开(公告)号:CN116583855A
公开(公告)日:2023-08-11
申请号:CN202180080443.4
申请日:2021-07-21
Applicant: 三菱电机株式会社
IPC: G06N3/092
Abstract: 提供一种用于控制系统的控制器,所述系统包括配置成控制系统的策略。控制器包括:与系统连接的接口,接口配置成经由测量系统的传感器获取动作状态和测量状态;存储器,用于存储包括模型学习模块和策略学习模块的计算机可执行程序模块;处理器,配置成执行程序模块的步骤。所述步骤包括:离线建模以使用模型学习程序基于动作状态和测量状态生成离线学习状态;将离线状态提供给策略学习程序以生成策略参数;以及基于策略参数更新系统的策略以操作系统。在用于生成策略参数的策略学习程序中,考虑到用于改进策略参数优化的丢弃方法、用于计算和评估粒子状态的演变的粒子方法以及用于生成粒子状态在线估计的传感器模型和在线估计器模型,以基于从模型学习程序生成的粒子状态来近似状态估计。