-
公开(公告)号:CN114489043A
公开(公告)日:2022-05-13
申请号:CN202111602040.X
申请日:2021-12-24
Applicant: 清华大学
Abstract: 本申请涉及多智能体协同规划技术领域,特别涉及一种多智能体路径规划方法、装置、电子设备及存储介质,其中,方法包括:采集多智能体中每个智能体在感知范围内的感知信息;对每个智能体在感知范围内的感知信息进行图像化处理,生成感知图像;基于复合神经网络对感知图像进行特征提取和信息聚合,将感知信息映射为目标动作策略,基于目标动作策略生成每个智能体在多个时刻的预测动作,并根据多个时刻的预测动作生成最优规划路径,控制每个智能体按照最优规划路径进行动作。由此,解决了如何在信息部分可知情况下对多智能体进行协同规划等问题。
-
公开(公告)号:CN113780574A
公开(公告)日:2021-12-10
申请号:CN202110994653.6
申请日:2021-08-27
Applicant: 清华大学
Abstract: 本申请属于智能决策技术领域,具体而言,涉及一种智能体强化学习决策方法、装置、电子设备及其存储介质。本方法首先根据被决策问题的多个约束条件建立约束方程,设计数个可显式求解的简单示例并求解并添加合适的奖励函数,得到一系列稀疏奖励的专家知识数据;将专家知识数据放置于DQN的回放缓冲模块中,获得既有专家知识数据又有环境学习数据的改进的回放缓冲模块Ex‑Replay buffer;智能体和环境交互后,将动作的概率分布输入至动作过滤模块获得合法动作,通过置信度函数确定是否选择过滤后的动作;损失函数中添加自适应项,调整使用动作过滤模块的频率。本方法数据集采集的过程更加高效、便捷,置信度函数可以为智能体选出对应任务的最佳策略。
-
公开(公告)号:CN113778080A
公开(公告)日:2021-12-10
申请号:CN202110909026.8
申请日:2021-08-09
Applicant: 清华大学
IPC: G05D1/02
Abstract: 本申请属于机器人控制技术领域,具体而言,涉及一种单轨双轮机器人的控制方法、装置、电子设备及存储介质。包括:构建一个用于控制器的控制器神经网络和一个用于训练的评论家网络;采集单轨双轮机器人真实数据信息;所述评论家网络利用所述单轨双轮机器人真实数据信息指导所述控制器神经网络在仿真环境中进行训练,得到训练后的控制器神经网络;将训练后的控制器神经网络写入单轨双轮机器人的视觉导航系统和底层控制系统中,实现对单轨双轮机器人的控制。本申请考使用强化学习的控制方法既可以完成复杂任务的控制,又无需对机器人进行动力学建模。
-
公开(公告)号:CN111488988B
公开(公告)日:2021-10-29
申请号:CN202010302194.6
申请日:2020-04-16
Applicant: 清华大学
Abstract: 本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
-
公开(公告)号:CN112101556B
公开(公告)日:2021-08-10
申请号:CN202010863637.9
申请日:2020-08-25
Applicant: 清华大学
Abstract: 本申请公开了一种识别与去除环境观测量中冗余信息的方法及装置,其中,该方法包括:采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;接着,对动作值函数及控制策略进行更新;在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除。该方法可有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
-
公开(公告)号:CN110348140B
公开(公告)日:2021-06-25
申请号:CN201910637561.5
申请日:2019-07-15
Applicant: 清华大学
IPC: G06F30/20 , G06F30/17 , G06F111/04 , G06F119/14
Abstract: 本发明公开了一种基于拖曳距的双轮机器人建模与静止平衡方法及装置,其中,该方法包括:将双轮机器人系统设置为多连杆多关节系统,在多连杆多关节系统中定义多个坐标系并计算出双轮机器人系统的拖曳距范围;根据多连杆多关节系统所受的闭环运动链和双轮机器人系统的车轮几何特性建立两个约束方程并建立运动学模型;利用第一类拉格朗日方程对运动学模型进行求解得到双轮机器人动力学模型,并对可控性矩阵的奇异值、闭环控制器的吸引域和控制代价进行分析,根据分析结果在拖曳距范围中确定出符合控制需求的拖曳距。该方法能反映在不同拖曳距下车把转角与质心高度变化的非线性关系,并能为拖曳距的选取提供一套分析流程,提高静止平衡的控制效果。
-
公开(公告)号:CN112052947A
公开(公告)日:2020-12-08
申请号:CN202010824196.1
申请日:2020-08-17
Applicant: 清华大学
Abstract: 本发明公开了一种基于策略选项的分层强化学习方法和装置,所述方法包括:构建高层策略网络、低层策略网络和评价网络;从仿真环境,获取状态轨迹;基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对更新后的策略模型进行测试。本发明实施例的基于策略选项的分层强化学习方法,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
-
公开(公告)号:CN111856925A
公开(公告)日:2020-10-30
申请号:CN202010489159.X
申请日:2020-06-02
Applicant: 清华大学
IPC: G05B13/04
Abstract: 本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置,其中,该方法包括:获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器;构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。
-
公开(公告)号:CN110989711B
公开(公告)日:2020-10-27
申请号:CN201911336937.5
申请日:2019-12-23
Applicant: 清华大学
IPC: G05D17/02 , G01M13/00 , G01M17/007
Abstract: 本发明公开了一种无人摩托主动平衡装置载荷与寿命测试设备,包括第一耳座、第二耳座、第一扭力杆、第二扭力杆、夹具、绝对式角位移数字编码器、力矩传感器、行星减速器和伺服电机,第一耳座和第二耳座相对间隔开地设置;第一扭力杆可转动地支撑在第一耳座上,第二扭力杆可转动地支撑在第二耳座上;夹具设置在第一耳座和第二耳座之间,夹具的一端与第一扭力杆的一端固定且另一端与第二扭力杆的一端固定;绝对式角位移数字编码器设置在第二扭力杆外端面上;力矩传感器一端与第一扭力杆另一端固定且另一端与行星减速器一端固定;伺服电机与行星减速器的另一端固定。本发明实现了在实验室内对无人摩托主动平衡装置载荷和寿命进行半实物仿真实验。
-
公开(公告)号:CN110032187B
公开(公告)日:2020-08-28
申请号:CN201910279187.6
申请日:2019-04-09
Applicant: 清华大学
Abstract: 本发明公开了一种无人摩托静态障碍避障路径规划方法,该方法包括以下步骤:建立无人摩托的平衡动力学模型与运动学模型;使用自适应分辨率的A*算法,在栅格地图上获取一条连接初始节点与目标节点的通路;结合平衡动力学模型与运动学模型,使用RRT算法对所述通路进行剪枝,生成一条无人摩托可执行的路径。该方法通过采用低精度地图,多层次展现环境,以及采用历史路径、历史地图的剪枝技术,极大降低算法的运行时间,实现路径规划中对于实时性的需求,当环境变化时也能够较快地适应,从而可以拓展为动态障碍物的避障算法。
-
-
-
-
-
-
-
-
-