-
公开(公告)号:CN117973554B
公开(公告)日:2025-03-21
申请号:CN202311865731.8
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06N20/00 , G06N3/0464 , G06N3/084
Abstract: 本发明提供一种视觉变化环境的强化学习泛化方法及装置,包括:将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中;使用增强函数对原始状态进行增强,得到原始状态对应的增强状态;对原始状态以及增强状态分别加入显著性引导信息,结合回放池中的数据以及增强状态获取智能体的价值一致性损失,基于价值一致性损失更新智能体的价值网络及表征网络;获取原始状态以及增强状态对应的智能体的策略一致性损失,基于策略一致性损失更新智能体的策略网络;通过动力学模型获取原始状态以及增强状态对应的智能体的动力学损失,基于动力学损失更新智能体的表征网络与动力学模型。
-
公开(公告)号:CN117973554A
公开(公告)日:2024-05-03
申请号:CN202311865731.8
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06N20/00 , G06N3/0464 , G06N3/084
Abstract: 本发明提供一种视觉变化环境的强化学习泛化方法及装置,包括:将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中;使用增强函数对原始状态进行增强,得到原始状态对应的增强状态;对原始状态以及增强状态分别加入显著性引导信息,结合回放池中的数据以及增强状态获取智能体的价值一致性损失,基于价值一致性损失更新智能体的价值网络及表征网络;获取原始状态以及增强状态对应的智能体的策略一致性损失,基于策略一致性损失更新智能体的策略网络;通过动力学模型获取原始状态以及增强状态对应的智能体的动力学损失,基于动力学损失更新智能体的表征网络与动力学模型。
-