-
公开(公告)号:CN117668282A
公开(公告)日:2024-03-08
申请号:CN202311581604.5
申请日:2023-11-24
Applicant: 南京邮电大学
IPC: G06F16/583 , G06F16/532 , G06F16/9032 , G06F18/2431 , G06F18/25 , G06V20/60 , G06V10/42 , G06V10/44 , G06N3/0455 , G06N3/0442 , G06N3/0464
Abstract: 本发明提供一种基于记忆网络和卷积增强的视觉问答处理方法,属于计算机视觉和自然语言处理领域结合的跨模态任务技术领域,通过记忆网络利用与图像相关的历史问题信息从全局角度生成图像的记忆补充特征,从而能够更加有效地利用同一张图像对应的历史问题中的互补信息,为模型提供更加全面和精确的历史记忆。其次应用卷积增强在问题引导的图像特征上进一步提取局部关键信息,随后与图像的记忆补充特征进行重加权融合,使模型在回答问题时更加关注与当前问题最相关的图像部分,从局部角度更精确的提取历史问题的互补信息,提高视觉问答模型的准确率。