一种多尺度孔洞邻域注意力计算骨干网络模型及其应用

    公开(公告)号:CN116246109A

    公开(公告)日:2023-06-09

    申请号:CN202310138042.0

    申请日:2023-02-20

    Abstract: 本发明属于图像识别领域,具体地说,是一种多尺度孔洞邻域注意力计算骨干网络模型及其应用,由输入、图像特征提取、输出组成。主体部分为图像特征提取,该部分共有4个阶段:第一阶段包括一个图像块嵌入层和一个孔洞Transformer模块,第二三四阶段结构相同,包括一个下采样层和一个DT模块。在DT模块的构成中,核心模块为孔洞邻域注意力计算模块,它用来对输入到该部分的特征图进行自注意力的计算,通过该模块的计算可以保证在获取图像局部信息的同时也可以获取到图像全局信息。与目前最先进的骨干网模型相比,本发明实现了自注意力计算中参数量和计算量的有效权衡,成为解决图像识别领域问题的有效网络模型。

    一种轻量化窗口金字塔网络模型及其应用

    公开(公告)号:CN116245144A

    公开(公告)日:2023-06-09

    申请号:CN202310138040.1

    申请日:2023-02-20

    Abstract: 本发明属于图像识别领域,具体地说,是一种轻量化窗口金字塔网络模型及其应用,包括Patchembedding、Patchmerging以及Transformerblock。Patchembedding模块对输入图片进行平均划分,将得到的每个区块作为一个向量进行后续的注意力计算。Patchmerging模块对输入特征图进行下采样,使得网络能够进行不同尺度的特征计算,从而得到多张不同分辨率大小的特征图。Transformerblock首先对输入特征图进行不同大小的窗口注意力计算,使得网络能够关注不同尺度的特征,然后对这些特征进行轻量化注意力计算,使得不同窗口内部的信息实现交互,最后使用线性层对这些特征进行融合。本发明提出的网络架构实现了性能与效率之间的最佳平衡。

Patent Agency Ranking