一种工业机器人的强化学习多目标轨迹规划方法

    公开(公告)号:CN116661453A

    公开(公告)日:2023-08-29

    申请号:CN202310649235.2

    申请日:2023-06-02

    Inventor: 樊春霞 柳润宁

    Abstract: 本发明公开了一种工业机器人的强化学习多目标轨迹规划方法,属于工业机器人轨迹规划技术领域;根据约束条件和优化目标,为每个优化目标确定轨迹规划过程的奖励函数;构建并行运作的动作网络和评判网络,根据评判网络输出的优势函数对动作网络的策略进行非支配排序而获得帕累托前沿集;在帕累托前沿集中,随机选择若干组状态‑动作对,使用最大熵搜索算法训练每个目标函数的每个动作网络参数,使用梯度算法训练每个目标的评判网络参数,获得满足多种约束条件多个目标的工业机器人轨迹。本发明通过最大熵搜索算法训练每个目标函数的每个动作网络参数,不断更新参数获得多个目标的工业机器人轨迹,从而提高获得工业机器人轨迹的稳定性与收敛性。

Patent Agency Ranking