一种自主式水下机器人运动控制方法及装置

    公开(公告)号:CN115586782B

    公开(公告)日:2024-04-12

    申请号:CN202211269250.6

    申请日:2022-10-17

    Applicant: 湖南大学

    Abstract: 本发明公开了一种自主式水下机器人运动控制方法及装置,该方法包括:构建自主式水下机器人运动控制中的动力学与运动学模型、状态变量、控制变量、效用函数和性能指标函数;设置双启发式动态规划的水下机器人的模型网络;构建双启发式动态规划的动作网络、评价网络和扰动网络并初始化网络;进行基于双启发式动态规划的策略提升过程,包括训练动作网络;进行基于启发式动态规划的策略评估过程,包括训练评价网络;训练启发式动态规划的扰动网络用于拟合外界扰动,包括训练扰动网络;重复动作网络、评价网络和扰动网络的训练,直至满足预设条件,最终得到的动作网络的输出公式用于控制自主式水下机器人的运动。

    基于自适应动态规划的自主式水下机器人控制方法和系统

    公开(公告)号:CN112859889B

    公开(公告)日:2022-02-15

    申请号:CN202110063508.6

    申请日:2021-01-18

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于自适应动态规则的自主式水下机器人控制方法和系统,该方法包括:步骤1,构建自主式水下机器人控制中的状态量、控制变量、转移环境、效用函数和代价函数;步骤2,通过构建自适应动态规划的执行网络对策略进行提升以及通过构建自适应动态规划的评价网络对策略进行评估;步骤3,预设控制律u(sk),对策略进行评估;步骤4,预设控制律u(sk),对策略进行提升,使得J(sk,u(sk))值更小;步骤5,重复步骤3至步骤4,直至循环迭代次数j大于规定次数或相邻两次循环迭代之后的代价函数差值小于设定值时,迭代循环过程终止。

    基于协状态辅助的自适应动态规划最优控制方法及系统

    公开(公告)号:CN113359471B

    公开(公告)日:2022-10-14

    申请号:CN202110757749.0

    申请日:2021-07-05

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于协状态辅助的自适应动态规划最优控制方法,包括如下步骤:步骤1,构建系统的状态变量、控制变量、转移环境、效用函数和代价函数;步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络;步骤3,基于协状态辅助的自适应动态规划的策略评估过程;步骤4,基于协状态辅助的自适应动态规划的策略提升过程;步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,ut,Λt)‑Ji(xt,ut,Λt)|小于设定值。本发明的基于协状态辅助的自适应动态规划最优控制方法,将代价函数对状态量的导数作为估计代价函数时的辅助变量,同时避免对复杂系统进行动力学建模的过程,提高了复杂动态系统求解的精度。

    基于DDPG的航空发动机异形叶片视点自主规划方法

    公开(公告)号:CN118246312A

    公开(公告)日:2024-06-25

    申请号:CN202410152169.2

    申请日:2024-02-03

    Applicant: 湖南大学

    Abstract: 本发明公开了基于DDPG的航空发动机异形叶片视点自主规划方法,包括以下步骤:S1,导入待测叶片的标准CAD模型;S2,定义强化学习环境的状态空间;S3,定义强化学习环境的动作空间;S4,定义强化学习的奖励函数,根据占有体素增长率、未知体素减少率和待测叶片重叠率误差惩罚得到奖励函数;S5,定义强化学习训练终止条件;S6,定义强化学习训练过程,进行动作网络和评价网络的参数训练;S7,重复步骤S2‑S6,得到训练后的动作网络和训练后的评价网络;S8,强化学习训练结束,得到一组最优视点。本发明是在连续空间内进行最优视点的求取,适用于叶片的薄壁复杂曲面结构,确保所选择的视点为连续空间内最优视点。

    考虑约束及扰动的自适应动态规划最优控制方法及系统

    公开(公告)号:CN116991065A

    公开(公告)日:2023-11-03

    申请号:CN202310885406.1

    申请日:2023-07-19

    Applicant: 湖南大学

    Abstract: 本申请公开了一种考虑约束及扰动的自适应动态规划最优控制方法及系统,该方法可实现随机干扰下的状态及动作量约束;通过引入评价‑执行‑扰动的训练框架,安全约束总会被考虑到扰动策略和控制策略博弈的过程中,即在搜寻最优控制策略时,导致控制对象偏离安全区域的干扰过程将会受到限制。扰动策略与性能代价函数的更新过程在策略评估过程中交替进行,且数据收集过程始终嵌入于策略评估过程中以缓解累积效用函数欠估计,可基于模型和不基于模型实行,此外,在不基于模型和基于模型的方案中,均引入了双评价网络来缓解终端性能代价函数的欠估计。

    基于混合策略提升的自适应动态规划最优控制方法及系统

    公开(公告)号:CN116880200A

    公开(公告)日:2023-10-13

    申请号:CN202310944854.4

    申请日:2023-07-31

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于混合策略提升的自适应动态规划最优控制方法,包括以下步骤:步骤1,构建系统的状态变量、期望轨迹、控制变量、动力学模型以及代价函数;步骤2,构建基于混合策略提升的自适应动态规划的执行网络、扰动网络以及评价网络;步骤3,采用基于动力学模型给定的控制律以及执行网络收集数据集;步骤4,评估基于混合策略提升的自适应动态规划策略;步骤5,改进基于混合策略提升的自适应动态规划策略;步骤6,重复步骤4‑5直至循环迭代次数大于规定次数或相邻两次迭代之后的代价函数差值小于设定值。本发明通过结合实际采样数据和先验动力学知识,提高了最优策略的学习速度和跟踪控制精度。

    基于自适应动态规划的自主式水下机器人控制方法和系统

    公开(公告)号:CN112859889A

    公开(公告)日:2021-05-28

    申请号:CN202110063508.6

    申请日:2021-01-18

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于自适应动态规则的自主式水下机器人控制方法和系统,该方法包括:步骤1,构建自主式水下机器人控制中的状态量、控制变量、转移环境、效用函数和代价函数;步骤2,通过构建自适应动态规划的执行网络对策略进行提升以及通过构建自适应动态规划的评价网络对策略进行评估;步骤3,预设控制律u(sk),对策略进行评估;步骤4,预设控制律u(sk),对策略进行提升,使得J(sk,u(sk))值更小;步骤5,重复步骤3至步骤4,直至循环迭代次数j大于规定次数或相邻两次循环迭代之后的代价函数差值小于设定值时,迭代循环过程终止。

    一种自主式水下机器人运动控制方法及装置

    公开(公告)号:CN115586782A

    公开(公告)日:2023-01-10

    申请号:CN202211269250.6

    申请日:2022-10-17

    Applicant: 湖南大学

    Abstract: 本发明公开了一种自主式水下机器人运动控制方法及装置,该方法包括:构建自主式水下机器人运动控制中的动力学与运动学模型、状态变量、控制变量、效用函数和性能指标函数;设置双启发式动态规划的水下机器人的模型网络;构建双启发式动态规划的动作网络、评价网络和扰动网络并初始化网络;进行基于双启发式动态规划的策略提升过程,包括训练动作网络;进行基于启发式动态规划的策略评估过程,包括训练评价网络;训练启发式动态规划的扰动网络用于拟合外界扰动,包括训练扰动网络;重复动作网络、评价网络和扰动网络的训练,直至满足预设条件,最终得到的动作网络的输出公式用于控制自主式水下机器人的运动。

    基于协状态辅助的自适应动态规划最优控制方法及系统

    公开(公告)号:CN113359471A

    公开(公告)日:2021-09-07

    申请号:CN202110757749.0

    申请日:2021-07-05

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于协状态辅助的自适应动态规划最优控制方法,包括如下步骤:步骤1,构建系统的状态变量、控制变量、转移环境、效用函数和代价函数;步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络;步骤3,基于协状态辅助的自适应动态规划的策略评估过程;步骤4,基于协状态辅助的自适应动态规划的策略提升过程;步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,ut,Λt)‑Ji(xt,ut,Λt)|小于设定值。本发明的基于协状态辅助的自适应动态规划最优控制方法,将代价函数对状态量的导数作为估计代价函数时的辅助变量,同时避免对复杂系统进行动力学建模的过程,提高了复杂动态系统求解的精度。

Patent Agency Ranking