一种再生物品分拣的多机械臂深度强化学习控制方法和装置

    公开(公告)号:CN119141536A

    公开(公告)日:2024-12-17

    申请号:CN202411305119.X

    申请日:2024-09-19

    Abstract: 一种再生物品分拣的多机械臂深度强化学习控制方法和装置,其方法包括:获取目标物体和多机械臂系统状态信息;构建深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法网络架构、设置经验回放池、智能体奖励函数;部署到真实分拣环境进行运动指导。其中,该方法在DDPG算法策略网络架构中使用循环神经网络(Recurrent Neural Network,RNN)作为主干特征提取网络,以捕捉输入数据的长期依赖关系,更好的指导机械臂的抓取策略;在评价网络架构中引入一对多判别架构,以适应多机械臂系统的训练;提出了一种复合奖励函数和双池经验回放机制,为机械臂提供更及时、更丰富的反馈信号,降低了数据相关性,提高样本利用率,提高多机械臂再生物品分拣的成功率和效率。

Patent Agency Ranking