-
公开(公告)号:CN117521838A
公开(公告)日:2024-02-06
申请号:CN202210879625.4
申请日:2022-07-25
IPC: G06N20/00 , G06F18/214 , G06F18/21
Abstract: 本发明提供了一种自动驾驶决策功能训练方法、系统及存储介质,上述方法包括:获取自动驾驶数据集,并在自动驾驶数据集中随机采样得到训练数据集;根据训练数据集以及设定的策略更新步数和策略参数计算得到随机梯度,并利用随机梯度计算得到无偏差的共轭动量;根据无偏差的共轭动量以及设定的策略参数学习率和速度因子,计算得到与策略参数对应的自适应学习率;基于无偏差的共轭动量和自适应学习率对所述策略参数进行更新;对所述策略更新步数进行迭代计算,在达到设定的最大策略更新步数的情况下,得到优化后的策略参数,以使自动驾驶决策功能训练系统采用优化后的策略参数进行自动驾驶决策,从而有效保障自动驾驶决策功能的智能性。