-
公开(公告)号:CN115879377A
公开(公告)日:2023-03-31
申请号:CN202211684467.3
申请日:2022-12-27
Applicant: 清华大学
IPC: G06F30/27 , G06F30/15 , G06T3/40 , G06V10/80 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种智能飞行汽车模态切换的决策网络的训练方法,涉及深度学习技术领域,所述方法包括:基于A3C网络构建总决策网络;在一个训练周期内,执行下述步骤,直至达到预设的训练周期数量:采用CoppeliaSim仿真器中随机搭建M个模拟环境;复制M个总决策网络作为M个子决策网络,为每个模拟环境分配一个子决策网络;在各模拟环境中对对应的子决策网络进行训练,直至到达训练周期结束条件,计算每个子决策网络的损失函数;当所有的模拟环境的当前训练周期均结束,计算M个子决策网络的损失函数的平均值,作为总决策网络的损失函数,利用损失函数对总决策网络的权重参数进行更新。本申请的训练方法提高了智能飞行汽车模态切换的决策网络的鲁棒性。
-
公开(公告)号:CN115879377B
公开(公告)日:2023-11-28
申请号:CN202211684467.3
申请日:2022-12-27
Applicant: 清华大学
IPC: G06F30/27 , G06F30/15 , G06T3/40 , G06V10/80 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种智能飞行汽车模态切换的决策网络的训练方法,涉及深度学习技术领域,所述方法包括:基于A3C网络构建总决策网络;在一个训练周期内,执行下述步骤,直至达到预设的训练周期数量:采用CoppeliaSim仿真器中随机搭建M个模拟环境;复制M个总决策网络作为M个子决策网络,为每个模拟环境分配一个子决策网络;在各模拟环境中对对应的子决策网络进行训练,直至到达训练周期结束条件,计算每个子决策网络的损失函数;当所有的模拟环境的当前训练周期均结束,计算M个子决策网络的损失函数的平均值,作为总决策网络的损失函数,利用损失函数对总决策网络的权重参数进行更
-