一种基于强化学习的任意角度倒立摆模型训练方法

    公开(公告)号:CN117313826B

    公开(公告)日:2024-02-23

    申请号:CN202311615603.8

    申请日:2023-11-30

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于强化学习的任意角度倒立摆模型训练方法,包括:获得小车一阶倒立摆状态向量;获得环境返回的值函数数组;计算下一状态的状态向量,返回执行本次动作所获得的奖励和一个判断环境是否结束的结束标识;将当前状态、下一状态、奖励、结束标识、所选动作作为一个元组存入到经验回放池中;从经验回放池中随机抽取一批元组;根据时序差分算法,计算损失函数,并更新神经网络,使得损失减小,直到通过结束标识判断出环境结束,完成网络模型训练,并通过训练好的模型来训练不同角度的模型。本发明考虑到不同角度训练的异同,把角度作为神经网络输入元素的一部分,使模型可以根据不同角度给出不同的动作选择,使训练更灵(56)对比文件王红睿;赵黎明.基于增强学习规则的倒立摆模糊神经网络控制器.吉林大学学报(信息科学版).2006,(05),全文.

    一种基于强化学习的任意角度倒立摆模型训练方法

    公开(公告)号:CN117313826A

    公开(公告)日:2023-12-29

    申请号:CN202311615603.8

    申请日:2023-11-30

    Applicant: 安徽大学

    Abstract: 本发明公开了一种基于强化学习的任意角度倒立摆模型训练方法,包括:获得小车一阶倒立摆状态向量;获得环境返回的值函数数组;计算下一状态的状态向量,返回执行本次动作所获得的奖励和一个判断环境是否结束的结束标识;将当前状态、下一状态、奖励、结束标识、所选动作作为一个元组存入到经验回放池中;从经验回放池中随机抽取一批元组;根据时序差分算法,计算损失函数,并更新神经网络,使得损失减小,直到通过结束标识判断出环境结束,完成网络模型训练,并通过训练好的模型来训练不同角度的模型。本发明考虑到不同角度训练的异同,把角度作为神经网络输入元素的一部分,使模型可以根据不同角度给出不同的动作选择,使训练更灵活、更通用。

Patent Agency Ranking