一种基于认知双通道的认知推理的视觉问答方法

    公开(公告)号:CN114969459A

    公开(公告)日:2022-08-30

    申请号:CN202210343042.X

    申请日:2022-04-02

    Applicant: 复旦大学

    Abstract: 本发明涉及是计算机多模态信息处理领域和认知科学领域,主要涉及一种基于认知双通道的认知推理的视觉问答方法。主要包括以下步骤:步骤1,构建认知内容,提取问题关键字,图像目标区域的标签内容,作为检索大型知识库的索引,通过检索内容构建任务知识库;步骤2,先验认知计算,通过多模态预训练模型,训练视觉文本内容表征;步骤3,构建任务的推理时空特性,通过对问句进行句法分析、词性分析,构建了问题关键字词之间的拓扑图,运用步骤2中的视觉表征内容计算图像内部区域的关联度,构建图像内容空间图结构;步骤4,锁定与问答内容相关的图像内容,根据步骤2中的联合表征的视觉向量、文本向量,计算每个文本向量关注的图像内容,构建问答关联图像内容;步骤5,层次认知的推理,联合步骤1中构建的知识内容与步骤2的先验计算,对问答内容重新编码,根据重编码的表示内容与步骤3分析的时空特性相结合,构建问答指令集合,通过问答指令进行问答推理,获取视觉问答的结果。本发明提高了开放域视觉问答模型的准确率,在推理过程中根据外部知识内容不断修正对问答内容的认知理解,使得视觉问答过程具有鲁棒性和可解释性。

Patent Agency Ranking