-
公开(公告)号:CN117993507A
公开(公告)日:2024-05-07
申请号:CN202410064061.8
申请日:2024-01-16
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于跨模态预训练模型的多模态知识提取与积累方法及装置。该方法包括:从给定的“问题‑图像”对中提取多模态知识三元组;利用三种损失函数学习多模态知识三元组的表示;利用学习的多模态知识三元组的表示,采用预训练‑微调的策略进行多模态知识的逐步积累,形成多模态知识库;对于给定的问题和图像,利用多模态知识库通过知识检索进行答案预测。本发明用一种新的知识表示学习的框架,可以独立于已有的知识库,通过对VQA样本的观察积累具有复杂关系的多模态知识,并基于积累的知识进行可解释的推理。
-
公开(公告)号:CN115269925A
公开(公告)日:2022-11-01
申请号:CN202210724045.8
申请日:2022-06-23
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901
Abstract: 本发明公开了一种基于层次结构的无偏置场景图生成方法。本方法为:1)利用有偏模型对图像样本进行处理,得到有偏模型预测结果;根据各图像样本对应的所述有偏模型预测结果构建一层次化关系树;其中,所述有偏模型为场景图生成模型;2)根据所述层次化关系树和设定的层次化关系损失函数,计算损失值;然后基于所述损失值利用梯度反向传播方法优化所述有偏模型,使所述有偏模型输出结果迭代优化,最终输出无偏置场景图;3)对于一待处理的图像,将其输入步骤2)优化后的所述有偏模型,得到对应的无偏置场景图。本发明能够让模型由粗到细地学习不同关系间的区别,从高度有偏的长尾场景图数据中生成无偏置场景图。
-