基于开放上下文场景下自动提示图像分割方法

    公开(公告)号:CN118470321A

    公开(公告)日:2024-08-09

    申请号:CN202410643797.0

    申请日:2024-05-23

    Abstract: 本发明公开了一种基于开放上下文场景下自动提示图像分割方法,方法包括:空间感知智能体基于当前状态选择语义开关动作与动作的反馈,经过迭代后推荐最优的提示位置;在SAM模型中使用图像编码器和提示编码器分别对给定的图像和提示集进行编码,获取图像特征和提示特征;将图像特征和提示特征输入掩码解码器,生成分割掩码;利用文本描述引导视觉‑语言模型对给定的图像进行编码,生成激活图;将分割掩码与图像特征进行乘积,获取以空间为主导的状态;将激活图与图像特征进行乘积,获取以语义为主导的状态;将以空间为主导的状态和以语义为主导的状态输入语义校准模块重新校准当前状态。本发明提高了抽象概念的理解能力。

Patent Agency Ranking