-
公开(公告)号:CN117991628A
公开(公告)日:2024-05-07
申请号:CN202211378151.1
申请日:2022-11-04
Applicant: 中国科学院计算技术研究所
IPC: G05B13/04 , G06N3/045 , G06N3/0499 , G06N3/048 , G06N3/092
Abstract: 本发明提出一种基于上下文符号策略的元强化学习自动控制方法和系统,包括:将基础控制对象的运动轨迹的上下文变量输入参数生成器,得到上下文变量中所有动作维度在符号网络中的预测参数;路径选择器通过在预测参数上乘以二进制掩码,以从符号网络中选择代表符号表达式形式的路径;符号网络根据路径和预测参数,生成训练样本的预测控制策略;使用预测控制策略控制基础控制对象,根据其运动轨迹使用强化学习训练更新参数生成器和路径选择器;将目标控制对象的上下文变量输入训练完的路径选择器和参数生成器,得到符号网络的结构和参数,从而得到目标控制对象符号化的控制策略,以控制策略控制目标控制对象完成控制目标。
-
公开(公告)号:CN117829250A
公开(公告)日:2024-04-05
申请号:CN202311695347.8
申请日:2023-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/0442
Abstract: 本发明提出一种多任务强化学习方法,包括:以混合专家模型构建强化学习模型,将该强化学习模型根据功能划分为多个模块,并对该模块进行对比学习训练;其中,以该混合专家模型部分为该强化学习模型的共享模块;对某一任务的每一步执行过程中,基于该任务的时序信息和任务信息,选取该模块构成模块组合,以该模块组合执行当前步的任务。本发明还提出一种多任务强化学习系统,以及一种用于实现多任务强化学习的数据处理装置。
-
公开(公告)号:CN117688983A
公开(公告)日:2024-03-12
申请号:CN202211014964.2
申请日:2022-08-23
Applicant: 中国科学院计算技术研究所
IPC: G06N3/0464 , G06N3/08 , G06T9/00
Abstract: 本发明提出一种捕捉环境中可控因素的表示学习方法和系统,包括:智能体采集在当前所处环境的观测图像,通过卷积神经网络对该观测图像进行编码,得到当前时刻t该观测图像的表示;统计该当前时刻t该观测图像的表示、t时刻到t+k‑1时刻策略所采取的动作序列和第t+k时刻该观测图像的表示,三者之间的互信息作为可控因素的度量;基于该度量构建损失函数,以最大化该度量,基于该度量最大时对应的时刻t该观测图像的表示,执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。本发明通过捕捉环境中的可控因素,能有效过滤其他可预测的噪声,因此在复杂环境上具备更好的鲁棒性。
-
公开(公告)号:CN117689912A
公开(公告)日:2024-03-12
申请号:CN202211013747.1
申请日:2022-08-23
Applicant: 中国科学院计算技术研究所
IPC: G06V10/762 , B25J9/16 , G06N3/0464 , G06N3/08 , G06V10/82
Abstract: 本发明提出一种基于对象的强化学习方法和系统,包括:智能体采集在当前所处环境的观测图像,从该观测图像中识别出对象的位置,并对其进行无监督聚类,得到各对象的类别标签;以该对象的类别标签为监督,通过卷积神经网络对该观测数据进行对象抽取,得到该观测图像的对象表示;基于该观测图像的对象表示,构建该观测图像中对象间的关系,作为该观测图像的特征向量,基于该特征向量执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。该发明可以提升强化学习中策略的推理能力,使其具备较高的泛化能力。
-
公开(公告)号:CN117725983A
公开(公告)日:2024-03-19
申请号:CN202311721370.X
申请日:2023-12-14
Applicant: 中国科学院计算技术研究所
IPC: G06N3/092 , G06N3/0985
Abstract: 本发明提出一种离线元强化学习的上下文分布偏移缓解方法,包括:构建离线元强化学习的模型,基于该模型的行为策略采集训练任务的上下文信息,以该训练任务的上下文信息和该训练任务的任务编码,训练该模型的上下文编码器和元策略;其中,训练该上下文编码器时,最大化该任务编码和该训练任务的互信息,并最小化该任务编码和该行为策略的互信息;基于该模型的探索策略,以该上下文编码器和该元策略执行目标任务。本发明还提出一种离线元强化学习的上下文分布偏移缓解系统,以及一种用于实现离线元强化学习的上下文分布偏移缓解的数据处理装置。
-
公开(公告)号:CN115271090A
公开(公告)日:2022-11-01
申请号:CN202210700253.4
申请日:2022-06-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于因果关系驱动的分层强化学习框架,包括:因果关系发现模块,用于获取智能体的强化学习环境中各环境变量之间的因果关系,并构建为因果关系图;子目标分层结构构造模块,用于根据该环境变量的变化函数,构建分层强化学习的子目标集合,选取该环境变量中的可控变量,通过该因果关系图从该子目标集合中选出与该可控变量关联的子目标为可达子目标,以所有该可达子目标的逻辑关系为该分层强化学习的分层关系。还提出一种基于因果关系驱动的分层强化学习方法,以及一种数据处理装置。
-
-
-
-
-