-
公开(公告)号:CN118095401B
公开(公告)日:2024-07-23
申请号:CN202410523966.7
申请日:2024-04-29
Applicant: 南京邮电大学
IPC: G06N3/092 , G06Q10/087
Abstract: 本发明提供了一种仓库收纳的后状态离轨策略强化学习训练加速方法,包括如下:将工程问题建模成强化学习环境,利用测量工具、照相机、红外线传感器等工具获取仓库具体大小信息、下一个需要收纳的物品形状大小信息以及当前仓库已有的物品位置等信息。智能体通过位运算的方法得到状态和动作信息,获取Q值的近似估值并以此进行探索与利用。智能体使用针对后状态的离轨策略Sarsa方法进行强化学习训练,通过不断的训练,得到仓库收纳的最优策略。该方法通过强化学习提高仓库收纳的训练速度,更快地学到最优控制策略,提高仓库收纳的效率和准确性。
-
公开(公告)号:CN118095401A
公开(公告)日:2024-05-28
申请号:CN202410523966.7
申请日:2024-04-29
Applicant: 南京邮电大学
IPC: G06N3/092 , G06Q10/087
Abstract: 本发明提供了一种仓库收纳的后状态离轨策略强化学习训练加速方法,包括如下:将工程问题建模成强化学习环境,利用测量工具、照相机、红外线传感器等工具获取仓库具体大小信息、下一个需要收纳的物品形状大小信息以及当前仓库已有的物品位置等信息。智能体通过位运算的方法得到状态和动作信息,获取Q值的近似估值并以此进行探索与利用。智能体使用针对后状态的离轨策略Sarsa方法进行强化学习训练,通过不断的训练,得到仓库收纳的最优策略。该方法通过强化学习提高仓库收纳的训练速度,更快地学到最优控制策略,提高仓库收纳的效率和准确性。
-