-
公开(公告)号:CN111858849A
公开(公告)日:2020-10-30
申请号:CN202010520943.2
申请日:2020-06-10
Applicant: 南京邮电大学
IPC: G06F16/33 , G06F16/332 , G06N3/04 , G06N3/08 , G06N20/00
Abstract: 本发明提出了一种基于密集协注意力模块的VQA方法,从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答。本发明使图像与问题这两种信息处理模式之间进行密集的双向互动,实现的更高准确度的视觉问答模型,有助于提高预测答案的准确性。