一种增强视觉信息流的图像描述生成方法

    公开(公告)号:CN115049844B

    公开(公告)日:2024-06-04

    申请号:CN202210759217.5

    申请日:2022-06-29

    Applicant: 厦门大学

    Abstract: 一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。

    一种增强视觉信息流的图像描述生成方法

    公开(公告)号:CN115049844A

    公开(公告)日:2022-09-13

    申请号:CN202210759217.5

    申请日:2022-06-29

    Applicant: 厦门大学

    Abstract: 一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。

Patent Agency Ranking