基于跳出局部极小的Transformer的训练方法

    公开(公告)号:CN120071083A

    公开(公告)日:2025-05-30

    申请号:CN202510142010.7

    申请日:2025-02-10

    Inventor: 刘波 耿深 袁彤彤

    Abstract: 本发明涉及一种基于跳出局部极小的Transformer的训练方法,用于实现优化Transformer训练的目标。主要包括优化得到局部极小值点θ*、构造出参数空间中θ*附近的一个特殊点θ1、再练损失的另一个点构造出与θ1具有θ相等2、进一步优化的训 θ2,使训练损失降至比θ*的训练损失更低的程度,实现跳出局部极小的目的,提高网络训练精度,得到分类效果更好的Transformer网络 将本发明提出的方法在CIFAR 10数据集上进行实验验证,实验结果显示本发明所提出的方法是有效的,可以在优化Transformer的过程中跳出局部极小,提高在CIFAR 10数据集上的分类正确率。

    基于网络剪枝和知识蒸馏的垃圾分类识别方法

    公开(公告)号:CN116310526A

    公开(公告)日:2023-06-23

    申请号:CN202310199855.0

    申请日:2023-03-05

    Abstract: 基于网络剪枝和知识蒸馏的垃圾分类图像识别方法属于计算机视觉领域,研究针对日常光照下固定角度摄像头采用定时截取视频帧的垃圾分类识别方法。首先利用卷积神经网络构建直连型的图像分类模型。其次使用剪枝标准对网络进行剪枝。该剪枝标准关注通道预剪枝后的特征图与原特征图的相似度,并使用二范式规范化特征图尺寸的影响,从而能够实现基于剪枝标准的跨层自动化剪枝。最后使用知识蒸馏弥补过剪枝导致的精度下降,将原网络的知识迁移到剪枝后的网络。采用本发明构建的分类器在不损失网络精度的情况下,模型计算资源消耗减少77%,硬盘空间占比减少50%,识别精度可达94.4%。

    一种基于分层视觉注入与混合注意力机制的多模态大模型方法

    公开(公告)号:CN120047785A

    公开(公告)日:2025-05-27

    申请号:CN202510124361.5

    申请日:2025-01-26

    Abstract: 本发明提出的是一种基于分层视觉注入与混合注意力机制的多模态大模型方法。该方法首先通过预训练的视觉编码器提取输入图像的视觉特征序列,并将其投影到与大语言模型嵌入空间相同的维度。随后,在每一层中,利用混合注意力机制将视觉特征与文本特征进行高效融合,生成综合的键值序列,从而实现视觉与文本信息的协同处理。与现有多模态大模型相比,本发明有效解决了因序列长度增加而导致计算复杂度显著上升的问题。通过分层视觉注入与混合注意力机制,本方法在保持模型性能的同时,显著降低了整体计算成本,提升了多模态大模型计算效率。

    一种基于损失曲面的改进物理信息神经网络训练的方法

    公开(公告)号:CN120012862A

    公开(公告)日:2025-05-16

    申请号:CN202510124318.9

    申请日:2025-01-26

    Abstract: 本发明涉及一种基于损失曲面的改进物理信息神经网络训练的方法,用于提高PINNs的预测精度。包括以下步骤:首次发现PINNs残差损失的损失曲面中不同全局极小值点对应着不同边界与初始条件的解,并且在损失曲面中可以形成低损失值的连通区域;用全连接神经网络只优化边界与初始条件损失至网络权重参数model*;用同一神经网络从权重参数model*开始训练边界与初始条件损失与残差损失的加权和,其中通过一个大权值λ固定住边界/初始条件,从而在残差损失曲面中找到当前边界与初始条件对应的残差损失的全局极小值点。将本发明在不同的偏微分方程上进行验证,实验结果显示本发明可以降低PINNs的预测误差。

    基于跳出局部极小的改进卷积神经网络训练的方法

    公开(公告)号:CN116663615A

    公开(公告)日:2023-08-29

    申请号:CN202310551209.6

    申请日:2023-05-16

    Abstract: 本发明涉及一种基于跳出局部极小的改进卷积神经网络训练的方法,用于实现最优化卷积神经网络的目标。主要包括优化得到非平凡局部极小值点θ*、构造出参数空间中θ*附近的一个点θ、再构造出与θ具有相等的训练损失的另一个点θ′、进一步优化θ′使训练损失降至比θ*的训练损失更低的程度,实现跳出局部极小,得到分类效果更好的卷积神经网络。将本发明提出的方法在CIFAR 10数据集上进行实验验证,实验结果显示本发明所提出的方法是有效的,可以在优化卷积神经网络的过程中跳出局部极小,提高在CIFAR 10数据集上的分类正确率。

    一种基于深度Bregman散度的知识蒸馏的图像分类模型压缩方法

    公开(公告)号:CN116503609A

    公开(公告)日:2023-07-28

    申请号:CN202310199862.0

    申请日:2023-03-06

    Abstract: 本发明涉及一种基于深度Bregman散度的知识蒸馏的图像分类模型压缩方法,基于深度Bregman散度的方法普遍用于横向衡量教师和学生模型的相似度,现将其扩展应用到教师或者学生网络在不同分布下的一种度量,学生和教师网络共享不同分布的参数,深入挖掘教师网络对图像分类的知识敏感度,从而实现纵向的学习。该方法首先设计一种普适的特征迁移的知识蒸馏策略,然后连接一个Bregman损失模块:在不同的深度Bregman网络中,分别提取教师和学生在不同分布下的Bregman散度矩阵,计算二者之间差异,通过反向传播,利用蒸馏损失与Bregman损失对学生网络的参数进行优化,进而提高学生网络模型的分类准确度。

    一种面向不同类型工业仿真软件的数据标识算法

    公开(公告)号:CN118839352A

    公开(公告)日:2024-10-25

    申请号:CN202410837297.0

    申请日:2024-06-26

    Abstract: 一种面向不同类型工业仿真软件的数据标识算法涉及工业仿真建模数据标识领域。工业仿真技术在产品生命周期中发挥着重要作用,但传统的数据集标识方法存在唯一性和规范性不足,数据安全性低的问题。本发明选取流体力学仿真的OpenFOAM、ANSYS FLUENT等五种不同的主流工业仿真软件作为数据来源,通过设定规范的数据集字段信息,构建生成唯一数据标识算法,并采用多级加密技术来提高数据安全性。通过本发明,可以确保数据集的唯一性和规范性,提高数据的检索效率和安全性。本发明使用构建的数据集微调出在工业仿真建模数据集标识场景下的大模型。本发明适用于工业仿真平台,有助于实现高效、安全和可靠的数据管理。

    一种基于Shapley值的深度卷积神经网络滤波器剪枝方法

    公开(公告)号:CN116306882A

    公开(公告)日:2023-06-23

    申请号:CN202310199854.6

    申请日:2023-03-05

    Inventor: 刘波 杨顺 袁彤彤

    Abstract: 本发明涉及一种基于Shapley值的深度神经网络滤波器剪枝方法,包括以下步骤:选择原始网络模型,准备数据集,划分为训练集和测试集,固定模型参数,通过数据集训练出未剪枝的初始模型;将部分训练集输入初始模型,计算出每个滤波器的Shapley值;设置剪枝比例,根据Shapley值对初始模型进行剪枝,然后使用数据集对剪枝后的模型进行重新训练,得到最终的模型。本发明提出了一个Shapley值近似值计算方法,通过先假设所有滤波器Shapley值相同,然后根据不同滤波器组合的效应函数值对所有滤波器的Shapley值进行调整,最终到达对实际Shapley值的近似。

Patent Agency Ranking