-
公开(公告)号:CN117689940A
公开(公告)日:2024-03-12
申请号:CN202311690885.8
申请日:2023-12-11
Applicant: 桂林电子科技大学
IPC: G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0499
Abstract: 本发明公开了一种基于ViT融合LPOM优化方法的多模态图像分类方法,包括:将待分类图像输入ViT模型后,基于Transformer结构提取所述待分类图像的图像特征;基于文本嵌入层提取所述待分类图像的文本特征;将所述图像特征和所述文本特征进行融合得到图像多模态特征;基于LPOM优化后的编码器对所述图像多模态特征进行迭代处理,输出图像分类预测结果。本发明通过引用LPOM来优化ViT模型,能够提高ViT模型的泛化能力,进而提升整体模型的的鲁棒性和泛化能力,提升模型对图片分类的准确率。
-
公开(公告)号:CN118469964A
公开(公告)日:2024-08-09
申请号:CN202410625096.4
申请日:2024-05-20
Applicant: 桂林电子科技大学
Abstract: 本发明涉及一种基于改进YOLOv8的钢材表面缺陷检测方法,包括:获取待检测钢材表面缺陷图像;构建改进的YOLOv8网络模型,其中,改进的YOLOv8网络模型利用训练集训练获得,训练集包括钢材表面缺陷图像和标注表面缺陷的标签,YOLOv8网络模型在进行下采样过程中引入动态蛇形卷积组合模块,利用BiFPN结构模块进行多尺度特征融合,基于小目标检测层增强边缘分割;将待检测钢材表面缺陷图像输入改进后的YOLOv8网络模型,获取钢材表面的缺陷检测结果。本发明旨在有效识别各种尺寸的缺陷,提高检测的准确性,并在工业环境中实现高效的实时检测。
-