-
公开(公告)号:CN115828099A
公开(公告)日:2023-03-21
申请号:CN202211551857.3
申请日:2022-12-05
Applicant: 北京航天自动控制研究所
IPC: G06F18/214 , G06N3/04 , G06N3/08
Abstract: 本公开涉及一种基于强化学习的经验回放缓存池飞行器数据处理方法,包括:获取飞行器姿态控制多维数据的经验回放缓存池中的样本数据集;将所述样本数据集输入至强化学习神经网络进行计算得到该样本数据集的累计奖励值;判断所述累计奖励值与预设阈值之间的大小关系,当所述累计奖励值与预设阈值满足第一大小关系时将所述样本输入至所述经验回放缓存池中的第一样本池;当所述累计奖励值与预设阈值满足第二大小关系时将所述样本输入至所述经验回放缓存池中的第二样本池;当进行经验回放采样时,在所述第一样本池和所述第二样本池之间进行采样。通过上述方法可以保护稀有样本的比例有利于强化学习的准确性。