-
公开(公告)号:CN108303876A
公开(公告)日:2018-07-20
申请号:CN201810004181.3
申请日:2018-01-03
Applicant: 中国科学院自动化研究所
IPC: G05B13/04
Abstract: 本发明涉及非线性系统控制技术领域,具体涉及一种弹簧质量阻尼器系统的鲁棒跟踪控制方法,旨在解决非线性的弹簧质量阻尼器系统受到扰动情况下的控制问题。本发明的方法根据弹簧质量阻尼器系统的鲁棒跟踪控制器进行跟踪控制;跟踪控制器的构建方法包括:获取弹簧质量阻尼器系统的参数;确定弹簧质量阻尼器系统跟踪控制的状态变量,建立被控模型;建立增广向量的动态方程;构建效用函数和代价函数;采用自适应动态规划方法,构建弹簧质量阻尼器系统的鲁棒跟踪控制器。本发明能够对外界未知干扰进行自适应鲁棒控制,改善弹簧质量阻尼器系统轨迹跟踪性能。
-
公开(公告)号:CN103217899A
公开(公告)日:2013-07-24
申请号:CN201310036976.X
申请日:2013-01-30
Applicant: 中国科学院自动化研究所
IPC: G05B13/04
Abstract: 本发明提出一种基于数据的Q函数自适应动态规划方法解决最优控制问题。所述方法主要包括:步骤1,初始化稳定的控制策略;步骤2,用已有的控制策略初始化控制器(actor)、评价器(critic)神经网络的权重;步骤3,根据当前控制策略和当前时刻系统状态,生成被控制系统的控制动作并施加到被控制对象上,观测下一时刻的系统状态;步骤4,调整控制器、评价器神经网络的权重;步骤5,判断当前迭代周期是否已经结束,是则进入步骤6,否则回到步骤3;步骤6,判断最近两个迭代周期产生的神经网络权重是否有明显变化,是则用新产生的控制器、评价器神经网络进入步骤2,否则输出最终的控制器神经网络控制器。
-
公开(公告)号:CN117610643B
公开(公告)日:2024-10-11
申请号:CN202311532896.3
申请日:2023-11-16
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种离散化多智能体的深度强化学习方法及系统。所述方法包括:获取多智能体系统中的所有智能体的动作及所有智能体的观测;迭代执行至少一次第一训练过程,直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛。本发明使用一种离散化处理的网络结构来表征多智能体系统的观测以及其他智能体的动作,该离散化网络以所有智能体的观测和其他智能体的动作作为输入,用于离散化智能体的智能体观测集合以及其他智能体的动作,能够减轻环境中噪声对智能体决策的影响,促进智能体的协作,提升多智能体系统的协作效率。
-
公开(公告)号:CN118153658A
公开(公告)日:2024-06-07
申请号:CN202410219901.3
申请日:2024-02-28
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0985 , G06F18/214
Abstract: 本申请公开了一种离线强化学习训练方法、动作预测方法、装置及介质,其中方法包括:获取待训练模型控制的机器人的第一静态数据集;第一静态数据集包括机器人的多条历史运行轨迹;待训练模型的网络包括价值函数网络、扩散模型网络和逆动力学网络;基于第一静态数据集对价值函数网络进行训练;基于训练后的价值函数网络生成历史运行轨迹的各个轨迹片段对应的性能标签;基于各个轨迹片段,以及各个性能标签对扩散模型网络和逆动力学网络进行训练。本申请提供的方法和装置,提高了扩散模型的学习准确度,提高了待训练模型的训练效率和预测准确度。
-
公开(公告)号:CN117610643A
公开(公告)日:2024-02-27
申请号:CN202311532896.3
申请日:2023-11-16
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种离散化多智能体的深度强化学习方法及系统。所述方法包括:获取多智能体系统中的所有智能体的动作及所有智能体的观测;迭代执行至少一次第一训练过程,直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛。本发明使用一种离散化处理的网络结构来表征多智能体系统的观测以及其他智能体的动作,该离散化网络以所有智能体的观测和其他智能体的动作作为输入,用于离散化智能体的智能体观测集合以及其他智能体的动作,能够减轻环境中噪声对智能体决策的影响,促进智能体的协作,提升多智能体系统的协作效率。
-
公开(公告)号:CN113894780A
公开(公告)日:2022-01-07
申请号:CN202111136603.0
申请日:2021-09-27
Applicant: 中国科学院自动化研究所
IPC: B25J9/16
Abstract: 本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质,其中方法包括:获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制。本发明提供的方法、装置、电子设备和存储介质,利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
-
公开(公告)号:CN113837348A
公开(公告)日:2021-12-24
申请号:CN202110858503.2
申请日:2021-07-28
Applicant: 中国科学院自动化研究所
IPC: G06N3/02 , G06N3/08 , A63F13/847 , A63F13/822
Abstract: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置,包括:将当前环境信息和各个智能体的隐含状态输入到智能体网络,得到智能体网络输出的各个智能体的观测动作价值;观测动作价值用于表征对应智能体当前执行所有动作的预估价值;基于各个智能体的观测动作价值,控制各个智能体执行动作;其中,智能体网络是基于样本环境信息和样本智能体的样本隐含状态,联合自加权网络进行强化学习得到的;自加权网络用于确定所有样本智能体执行动作的联合动作价值;在强化学习过程中,自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能够避免变化环境中智能体数量动态变化对训练过程的影响。
-
公开(公告)号:CN109466552B
公开(公告)日:2020-07-28
申请号:CN201811260601.0
申请日:2018-10-26
Applicant: 中国科学院自动化研究所
IPC: B60W30/12
Abstract: 本发明涉及一种智能驾驶车道保持方法及系统,所述智能驾驶车道保持方法包括:获取驾驶员视角的当前前方图像;基于预设的驾驶图像感知模型,预测所述当前前方图像的车道特征;基于预设的数据驱动车道保持模型,根据所述车道特征,计算方向盘转角控制量;根据所述方向盘转角控制量,控制本车行驶在车道中央。本发明通过采用多任务学习网络构建所述驾驶图像感知模型,促使所述驾驶图像感知模型学习到多个相关任务共有的图像特征,可提高车道特征预测的准确率;在方向盘转角控制量计算中,采用数据驱动的方法,不依赖于车辆模型,可提高方向盘转角控制量计算的准确性与鲁棒性。
-
公开(公告)号:CN106154180B
公开(公告)日:2019-02-05
申请号:CN201610687158.X
申请日:2016-08-18
Applicant: 中国科学院自动化研究所
IPC: G01R31/378 , G01R31/367
Abstract: 本发明公开了一种储能电池充/放电异常行为检测方法和检测系统。其中,该方法包括提取所述储能电池在充/放电状态下的电流、电压数据;将提取的电流数据与充/放电电流阈值比较,并根据比较结果确定所述储能电池的所述充/放电状态;利用K最近邻方法,确定所述储能电池在所述充/放电状态下的电流‑电压空间对应关系中K个最近邻距离和;将所述充/放电状态下的K个最近邻距离和与充/放电状态下的距离阈值进行比较,并根据比较结果来检测所述储能电池的充/放电异常行为。通过本发明实施例,可以为及时发现系统老化、故障等提供支持。
-
公开(公告)号:CN109245196A
公开(公告)日:2019-01-18
申请号:CN201810967603.7
申请日:2018-08-23
Applicant: 中国科学院自动化研究所 , 中国电力科学研究院有限公司 , 国网江苏省电力有限公司电力科学研究院
Abstract: 本发明涉及一种多电池储能系统的优化控制方法、系统及存储介质,本发明的方法与单电池管理系统不同,多个电池的不同属性被考虑进来,以整个系统的长期优化指标作为优化目标,此外,价值函数被定义为关于所有电池状态的模糊系统,根据电池动力学特性计算模糊系统的参数,电池的充放电动作考虑各个电池的容量和功率约束,整个优化过程是在受限的动作空间完成的。这样得到的最优动作一方面有助于延长电池寿命,另一方面保证了最优的性能指标。
-
-
-
-
-
-
-
-
-