-
公开(公告)号:CN113792846A
公开(公告)日:2021-12-14
申请号:CN202111035843.1
申请日:2021-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种强化学习中超高精度探索环境下的状态空间处理方法,系统及电子设备,涉及超高精度环境状态空间处理方法、系统及电子设备领域。本发明利用环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,放大所述智能体在相邻时刻间的动作上物理特征差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,执行的结果经环境引擎处理输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定强化学习策略,保证了智能体可在环境序列间状态差异相对自身差异数量级过小的情况下进行有效的学习训练。
-
公开(公告)号:CN113467487A
公开(公告)日:2021-10-01
申请号:CN202111035827.2
申请日:2021-09-06
Applicant: 中国科学院自动化研究所
IPC: G05D1/02
Abstract: 本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。
-