一种基于知识的视觉问答任务下的多模态信息融合方法

    公开(公告)号:CN113240046B

    公开(公告)日:2023-01-03

    申请号:CN202110611831.2

    申请日:2021-06-02

    Abstract: 本发明涉及计算机视觉和自然语言处理领域,具体涉及的是一种基于知识的视觉问答任务下的多模态信息融合方法。本发明将外部知识作为一个单独的模态,拓展了基于知识的视觉问答的思路;使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合,为基于知识的视觉问答任务提供了新颖有效地解决方案,本发明提出的多模态融合技术不局限于基于知识的视觉问答任务,可以将其扩展到其他多模态任务当中去;使用新颖有效地位置编码方法为图像的位置进行编码,比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息,本发明中的位置编码更加有效,可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。

    一种基于深层推理注意力机制的视觉问答方法

    公开(公告)号:CN114398471A

    公开(公告)日:2022-04-26

    申请号:CN202111598407.5

    申请日:2021-12-24

    Inventor: 苏丽 韩遥

    Abstract: 本发明提供一种基于深层推理注意力机制的视觉问答方法,其特征是:包括以下步骤:步骤一:获取文本特征和图像特征编码向量;步骤二:将文本特征和图像特征映射到同一个空间进行交互推理学习;步骤三:答案预测。本发明的主要目的是解决如何高效的提取视觉特征和文本特征,同时对其实现更细粒度的推理。本发明引入记忆网络模型去存储关键信息,进而提升模型的推理能力。通过在基准数据集VQAv2数据集测试,该模型取得了有竞争力的结果。

    一种基于知识的视觉问答任务下的多模态信息融合方法

    公开(公告)号:CN113240046A

    公开(公告)日:2021-08-10

    申请号:CN202110611831.2

    申请日:2021-06-02

    Abstract: 本发明涉及计算机视觉和自然语言处理领域,具体涉及的是一种基于知识的视觉问答任务下的多模态信息融合方法。本发明将外部知识作为一个单独的模态,拓展了基于知识的视觉问答的思路;使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合,为基于知识的视觉问答任务提供了新颖有效地解决方案,本发明提出的多模态融合技术不局限于基于知识的视觉问答任务,可以将其扩展到其他多模态任务当中去;使用新颖有效地位置编码方法为图像的位置进行编码,比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息,本发明中的位置编码更加有效,可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。

Patent Agency Ranking