-
公开(公告)号:CN117808044A
公开(公告)日:2024-04-02
申请号:CN202410051371.6
申请日:2024-01-15
Applicant: 济南大学
IPC: G06N3/0455 , G06N3/0464 , G06N3/082 , G06V10/82
Abstract: 卷积神经网络(CNNs)和Vision Transformers(ViTs)是计算机视觉领域两大主流框架。CNNs通过卷积学习局部特征,参数少、复杂度低。ViTs通过自注意机制学习全局依赖,但计算冗余问题显著。头部交互问题鲜有人关注,限制其潜力。为解决问题,提出HybridFormer,包含局部卷积块(LCB)和全局变压器块(GTB)。LCB用多核卷积注意力提取局部多尺度特征,GTB用交叉头自注意学习全局上下文。HybridFormer整合改进卷积和自注意,平衡冗余和依赖,高效表示学习。实验证明HybridFormer在多视觉任务上达最先进水平,包括图像分类、目标检测和语义分割等。