一种新的用于视觉识别的CNN和Transformer混合神经网络结构方法与系统

    公开(公告)号:CN117808044A

    公开(公告)日:2024-04-02

    申请号:CN202410051371.6

    申请日:2024-01-15

    Applicant: 济南大学

    Abstract: 卷积神经网络(CNNs)和Vision Transformers(ViTs)是计算机视觉领域两大主流框架。CNNs通过卷积学习局部特征,参数少、复杂度低。ViTs通过自注意机制学习全局依赖,但计算冗余问题显著。头部交互问题鲜有人关注,限制其潜力。为解决问题,提出HybridFormer,包含局部卷积块(LCB)和全局变压器块(GTB)。LCB用多核卷积注意力提取局部多尺度特征,GTB用交叉头自注意学习全局上下文。HybridFormer整合改进卷积和自注意,平衡冗余和依赖,高效表示学习。实验证明HybridFormer在多视觉任务上达最先进水平,包括图像分类、目标检测和语义分割等。

Patent Agency Ranking