学习装置及方法、学习程序、控制装置及方法、控制程序

    公开(公告)号:CN116194253A

    公开(公告)日:2023-05-30

    申请号:CN202180058143.6

    申请日:2021-07-16

    Abstract: 学习装置具备:制作部,其制作包含状态迁移模型和汇总部的汇总状态迁移模型,所述状态迁移模型根据测量出的机器人的状态以及针对机器人的指令来预测机器人的下一状态,所述汇总部对预测结果进行汇总;指令生成部,其在每个控制周期执行如下的各处理:输入测量出的机器人的状态,生成针对机器人的指令的候选,取得根据机器人的状态以及针对机器人的指令的多个使用汇总状态迁移模型(20)预测的机器人的状态,生成使与所取得的状态对应的报酬最大化的指令并输出;以及学习部,其以使得与输出的指令对应地预测的机器人的下一状态和与下一状态对应的机器人的测量出的状态之间的误差变小的方式更新汇总状态迁移模型。

Patent Agency Ranking