一种基于随机微分方程的连续性强化学习系统及方法

    公开(公告)号:CN110502721B

    公开(公告)日:2021-04-06

    申请号:CN201910712857.9

    申请日:2019-08-02

    Applicant: 上海大学

    Abstract: 本发明公布了一种基于随机微分方程的连续性强化学习系统及方法,系统包括动作策略生成器APG、环境状态估计器ESE、值估计器VE,记忆存储模块MS和外部环境EE;具体步骤如下:初始化动作策略生成器APG、环境状态估计器ESE和值估计器VE;动作策略生成器APG计算输出动作值增量Δak;外部环境EE输出下一步动作值ak+1、下一步环境状态值sk+1以及当前步奖励值Rk,并存储至记忆存储模块MS中;环境状态估计器ESE更新环境状态参数集θp和预测未来环境状态估计值s′k;VE优化器更新Q函数网络并预测未来奖励估计值R′k;APG优化器更新动作值参数集θv。本方法基于随机微分方程作为基础模型,能实现动作控制的连续性且能控制训练过程方差,能够通过预测环境的变化来选择动作以实现更好的环境交互。

    基于随机微分方程的连续性强化学习模型构造系统及方法

    公开(公告)号:CN111027705A

    公开(公告)日:2020-04-17

    申请号:CN201911113880.2

    申请日:2019-11-14

    Applicant: 上海大学

    Abstract: 本发明公开了一种基于随机微分方程的连续性强化学习模型构造系统及方法,包括动作微分构造模块、环境状态微分构造模块、基础模型存在性检验模块、基础模型构造模块、值估计器构造模块、环境状态估计器构造模块和动作策略生成器构造模块;值估计器构造模块包含值估计器优化函数构造模块、Q函数更新模块和未来奖励估计模块;环境状态估计器构造模块包含环境状态估计器优化函数构造模块、环境状态估计器优化器附加目标函数构造模块、未来环境状态预测模块和环境状态参数计算模块。应用本发明所构造得到的强化学习模型,能够实现对动作增量的计算,保证动作的连续性,并能够适用于连续物理系统的实际控制。

    一种基于随机微分方程的连续性强化学习系统及方法

    公开(公告)号:CN110502721A

    公开(公告)日:2019-11-26

    申请号:CN201910712857.9

    申请日:2019-08-02

    Applicant: 上海大学

    Abstract: 本发明公布了一种基于随机微分方程的连续性强化学习系统及方法,系统包括动作策略生成器APG、环境状态估计器ESE、值估计器VE,记忆存储模块MS和外部环境EE;具体步骤如下:初始化动作策略生成器APG、环境状态估计器ESE和值估计器VE;动作策略生成器APG计算输出动作值增量Δak;外部环境EE输出下一步动作值ak+1、下一步环境状态值sk+1以及当前步奖励值Rk,并存储至记忆存储模块MS中;环境状态估计器ESE更新环境状态参数集θp和预测未来环境状态估计值s′k;VE优化器更新Q函数网络并预测未来奖励估计值R′k;APG优化器更新动作值参数集θv。本方法基于随机微分方程作为基础模型,能实现动作控制的连续性且能控制训练过程方差,能够通过预测环境的变化来选择动作以实现更好的环境交互。

Patent Agency Ranking