基于跳出局部极小的Transformer的训练方法

    公开(公告)号:CN120071083A

    公开(公告)日:2025-05-30

    申请号:CN202510142010.7

    申请日:2025-02-10

    Inventor: 刘波 耿深 袁彤彤

    Abstract: 本发明涉及一种基于跳出局部极小的Transformer的训练方法,用于实现优化Transformer训练的目标。主要包括优化得到局部极小值点θ*、构造出参数空间中θ*附近的一个特殊点θ1、再练损失的另一个点构造出与θ1具有θ相等2、进一步优化的训 θ2,使训练损失降至比θ*的训练损失更低的程度,实现跳出局部极小的目的,提高网络训练精度,得到分类效果更好的Transformer网络 将本发明提出的方法在CIFAR 10数据集上进行实验验证,实验结果显示本发明所提出的方法是有效的,可以在优化Transformer的过程中跳出局部极小,提高在CIFAR 10数据集上的分类正确率。

Patent Agency Ranking