Patent search ap:("中国科学院自动化研究所") AND inv:"张曜程" Page 1

1.

发明授权
离线强化学习训练方法、动作预测方法、装置及介质有权

公开(公告)号：CN118153658B

公开(公告)日：2025-01-07

申请号：CN202410219901.3

申请日：2024-02-28

Applicant: 中国科学院自动化研究所

Inventor： 李浩然 , 张曜程 , 朱圆恒

IPC: G06N3/092 , G06N3/0985 , G06F18/214

Abstract: 本申请公开了一种离线强化学习训练方法、动作预测方法、装置及介质，其中方法包括：获取待训练模型控制的机器人的第一静态数据集；第一静态数据集包括机器人的多条历史运行轨迹；待训练模型的网络包括价值函数网络、扩散模型网络和逆动力学网络；基于第一静态数据集对价值函数网络进行训练；基于训练后的价值函数网络生成历史运行轨迹的各个轨迹片段对应的性能标签；基于各个轨迹片段，以及各个性能标签对扩散模型网络和逆动力学网络进行训练。本申请提供的方法和装置，提高了扩散模型的学习准确度，提高了待训练模型的训练效率和预测准确度。

2.

发明公开
离线强化学习训练方法、动作预测方法、装置及介质有权

公开(公告)号：CN118153658A

公开(公告)日：2024-06-07

申请号：CN202410219901.3

申请日：2024-02-28

Applicant: 中国科学院自动化研究所

Inventor： 李浩然 , 张曜程 , 朱圆恒

IPC: G06N3/092 , G06N3/0985 , G06F18/214

Abstract: 本申请公开了一种离线强化学习训练方法、动作预测方法、装置及介质，其中方法包括：获取待训练模型控制的机器人的第一静态数据集；第一静态数据集包括机器人的多条历史运行轨迹；待训练模型的网络包括价值函数网络、扩散模型网络和逆动力学网络；基于第一静态数据集对价值函数网络进行训练；基于训练后的价值函数网络生成历史运行轨迹的各个轨迹片段对应的性能标签；基于各个轨迹片段，以及各个性能标签对扩散模型网络和逆动力学网络进行训练。本申请提供的方法和装置，提高了扩散模型的学习准确度，提高了待训练模型的训练效率和预测准确度。

Patent Agency Ranking