一种基于级联多尺度视觉Transformer的图像语义分割方法

    公开(公告)号:CN113947680A

    公开(公告)日:2022-01-18

    申请号:CN202111186956.1

    申请日:2021-10-12

    Inventor: 林帆 王小玉

    Abstract: 本发明提出一种基于级联多尺度视觉Transformer架构的语义分割方法,包括:将图像切分为多个Patch,将Patch拉伸为一维向量N*C;步骤二、利用重叠Padding块编码对Patch进行位置编码;步骤三、将token输入Transformer模块,依次经过层归一化、多头注意力层以及前馈神经网络,重复步骤三至网络收敛;步骤四、利用块编码将token还原至二维,利用池化层将图像下采样至1/2;步骤五将编码阶段和当前阶段的特征图采用像素点信息聚合;步骤六将特征图上采样至1/4时采用卷积层输出为类别数,最后采用双线性插值算法将图像上采样至原图大小。本发明可以解决计算量大,分割边界不均匀问题。

Patent Agency Ranking