-
公开(公告)号:CN113792846A
公开(公告)日:2021-12-14
申请号:CN202111035843.1
申请日:2021-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种强化学习中超高精度探索环境下的状态空间处理方法,系统及电子设备,涉及超高精度环境状态空间处理方法、系统及电子设备领域。本发明利用环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,放大所述智能体在相邻时刻间的动作上物理特征差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,执行的结果经环境引擎处理输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定强化学习策略,保证了智能体可在环境序列间状态差异相对自身差异数量级过小的情况下进行有效的学习训练。
-
公开(公告)号:CN113467487A
公开(公告)日:2021-10-01
申请号:CN202111035827.2
申请日:2021-09-06
Applicant: 中国科学院自动化研究所
IPC: G05D1/02
Abstract: 本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。
-
公开(公告)号:CN114053712B
公开(公告)日:2022-04-22
申请号:CN202210048175.4
申请日:2022-01-17
Applicant: 中国科学院自动化研究所
IPC: A63F13/55 , A63F13/837 , G06K9/62 , G06N3/04
Abstract: 本发明公开了一种虚拟对象的动作生成方法、装置及设备,其中,所述方法包括:获取多个虚拟对象的特征信息,所述多个虚拟对象属于同一组;将所述多个虚拟对象的特征信息映射成一个总虚拟对象的特征信息;根据所述总虚拟对象的特征信息,获得所述多个虚拟对象中每个虚拟对象的第一策略动作;根据所述每个虚拟对象的第一策略动作,生成相应虚拟对象的第二策略动作;控制所述每个虚拟对象执行相应的所述第二策略动作。通过上述方式,本发明可以提高训练效率、简化操作流程,同时还可以实现智能控制多个虚拟对象动作的协同性,从而使一组的多个虚拟对象在对抗对手的过程中表现出动作之间的协同性,基于虚拟场景中的预设目标不断优化该多个虚拟对象的博弈结果。
-
公开(公告)号:CN116468069A
公开(公告)日:2023-07-21
申请号:CN202310501183.4
申请日:2023-05-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种状态值预测模型的训练方法及装置。其中,该方法包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本发明解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。
-
公开(公告)号:CN115577874A
公开(公告)日:2023-01-06
申请号:CN202211179903.1
申请日:2022-09-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及人工智能领域,公开了一种应用于兵棋推演的策略模型训练方法、装置及设备。本发明实施例涉及的应用于兵棋推演的策略模型训练方法包括:分别获取第一策略模型和第二策略模型,第一策略模型来自第一种群池,第二策略模型来自第二种群池;调用第一策略模型与第二策略模型进行对战,得到第一对战结果,第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性;若第一对战结果大于第一预设阈值,则更新第一种群池中第一策略模型的被选概率。这样,双方策略模型对应的种群池随着训练不断优化更新,满足了双方策略模型对训练样本的数量以及多样性需求,以及避免了策略模型学习策略单一的情况。
-
公开(公告)号:CN114330754A
公开(公告)日:2022-04-12
申请号:CN202210206944.9
申请日:2022-03-04
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例涉及人工智能领域,公开了一种策略模型训练方法、装置及设备。本申请实施例涉及的策略模型训练方法包括:分别获取第一策略模型以及第二策略模型对应的策略,并且,在对战学习过程中获取对战双方的对战结果,依照对战结果进行各自优势策略挑选,并将挑选出的优势策略用于后续对应策略群体的进化,以此往复循环,使对战双方策略模型对应的策略群不断有优势策略注入,这样不仅可以将己方智能体得到进化策略训练,同时也可以使对战方智能体得到进化策略训练,提升了博弈学习网络中策略模型的进化程度上限,使策略模型对策略多样的博弈场景适应性更强。
-
公开(公告)号:CN114053712A
公开(公告)日:2022-02-18
申请号:CN202210048175.4
申请日:2022-01-17
Applicant: 中国科学院自动化研究所
IPC: A63F13/55 , A63F13/837 , G06K9/62 , G06N3/04
Abstract: 本发明公开了一种虚拟对象的动作生成方法、装置及设备,其中,所述方法包括:获取多个虚拟对象的特征信息,所述多个虚拟对象属于同一组;将所述多个虚拟对象的特征信息映射成一个总虚拟对象的特征信息;根据所述总虚拟对象的特征信息,获得所述多个虚拟对象中每个虚拟对象的第一策略动作;根据所述每个虚拟对象的第一策略动作,生成相应虚拟对象的第二策略动作;控制所述每个虚拟对象执行相应的所述第二策略动作。通过上述方式,本发明可以提高训练效率、简化操作流程,同时还可以实现智能控制多个虚拟对象动作的协同性,从而使一组的多个虚拟对象在对抗对手的过程中表现出动作之间的协同性,基于虚拟场景中的预设目标不断优化该多个虚拟对象的博弈结果。
-
公开(公告)号:CN113467487B
公开(公告)日:2021-11-23
申请号:CN202111035827.2
申请日:2021-09-06
Applicant: 中国科学院自动化研究所
IPC: G05D1/02
Abstract: 本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。
-
-
-
-
-
-
-