-
公开(公告)号:CN114734446B
公开(公告)日:2024-06-18
申请号:CN202210501422.1
申请日:2022-05-10
Applicant: 南京理工大学
IPC: B25J9/16
Abstract: 本发明公开了一种基于改进的强化学习算法的机械手高精度位置控制方法,本方法当中使用的是深度确定性策略梯度算法,即DDPG算法。在改进的DDPG算法当中,本方法包括在机械手数据的存储、提取等过程当中添加一种特殊的二叉树的方法;将传统的稀疏奖励函数重新构造,变成每步的奖励、前进的大小、稀疏奖励相结合构成特殊的奖励函数;包括增加噪声用于策略搜索。本发明通过将得到的样本集给予一个优先级存储到经验池,数据经过改进后的经验池提取时,得到更高优先级的数据将被优先利用,从而实现训练效率的提高、精确度的增强。结果表明,改进后的DDPG算法能够到达目标位置的成功率提高。
-
公开(公告)号:CN114734446A
公开(公告)日:2022-07-12
申请号:CN202210501422.1
申请日:2022-05-10
Applicant: 南京理工大学
IPC: B25J9/16
Abstract: 本发明公开了一种基于改进的强化学习算法的机械手高精度位置控制方法,本方法当中使用的是深度确定性策略梯度算法,即DDPG算法。在改进的DDPG算法当中,本方法包括在机械手数据的存储、提取等过程当中添加一种特殊的二叉树的方法;将传统的稀疏奖励函数重新构造,变成每步的奖励、前进的大小、稀疏奖励相结合构成特殊的奖励函数;包括增加噪声用于策略搜索。本发明通过将得到的样本集给予一个优先级存储到经验池,数据经过改进后的经验池提取时,得到更高优先级的数据将被优先利用,从而实现训练效率的提高、精确度的增强。结果表明,改进后的DDPG算法能够到达目标位置的成功率提高。
-