用于零化视觉指代表达理解方法、装置、设备及介质

    公开(公告)号:CN118196376A

    公开(公告)日:2024-06-14

    申请号:CN202410287259.2

    申请日:2024-03-13

    Abstract: 本发明提供一种用于零化视觉指代表达理解方法、装置、设备及介质,方法包括:将指代表达文本输入至大型语言模型中,输出各目标类别;将各目标类别和待指代图像输入至目标检测器中,输出各目标区域图像和目标位置和目标大小;基于大型语言模型将指代表达文本映射至第一离线推理函数上,基于第一离线推理函数、各目标区域图像和目标位置和目标大小,确定目标属性的第一目标得分;基于各目标区域图像以及第二离线推理函数确定目标属性的第二目标得分,基于第一目标得分和第二目标得分,确定视觉指代表达理解结果。该方法将大型语言模型、目标检测器以及离线推理函数有机结合,对指代表达文本进行平行拆解,无需训练样本即可进行显式鲁棒的视觉推理。

Patent Agency Ranking