基于网格的协同注意力VQA方法和装置
摘要:
本申请公开了一种基于网格的协同注意力VQA方法和装置,属于视觉问答领域。该方法包括:从数据集中获取图像并进行网格划分;将网格划分后的图像输入RCNN中,经卷积、池化及特征融合后得到特征图;从数据集中获取问题并映射到一个向量空间内得到词向量;根据特征图和词向量计算出相关矩阵,在计算出特征图的注意力分布和词向量的注意力分布;然后输入GRU计算得到新的词向量和对应的编码;采用MLP对新的词向量和对应的编码进行整合,得到问题对应的答案。该装置包括:划分模块、RCNN模块、映射模块、计算模块、GRU模块和MLP模块。本申请实现了图像和问题文本相互关注,提高了预测的准确率,提升了模型的性能。
公开/授权文献
0/0