基于布尔提示增强的零样本视觉问答方法及系统

    公开(公告)号:CN119904712A

    公开(公告)日:2025-04-29

    申请号:CN202411986265.3

    申请日:2024-12-31

    Abstract: 本发明公开了基于布尔提示增强的零样本视觉问答方法及系统,涉及零样本视觉问答技术领域,包括:基于预训练视觉语言模型自适应判断输入问题的复杂程度,输出简单问题的答案,选择出对于模型复杂的问题;基于选择出的复杂问题,提取关键词,并生成问题对应图像的描述;基于原始问题生成捕捉全局信息的子问题,从问题关键词和图像描述生成包含局部信息的子问题;基于生成的子问题与原始问题之间的余弦相似度,构建子问题的冗余度值和丰富度值;利用冗余度值删除冗余度高的子问题,利用丰富度值确保子问题内容的丰富性,利用得到的子问题作为提示增强模型对复杂问题的理解以及对局部视觉信息的关注,提高零样本视觉问答的准确性。

Patent Agency Ranking