一种结合多视角注意力机制的细粒度视觉问答方法
摘要:
本发明涉及一种结合多视角注意力机制的细粒度视觉问答方法,充分考虑到问题具体语义的导向作用,提出一种多视角注意力模型,能够有效选择出与当前任务目标(问题)相关的多个显著目标区域,从多个视角学习获取图像和问题文本中与答案有关的区域信息,提取出问题语义引导下的图像中的区域显著性特征,具有更细粒度的特征表达,并对图像中存在多个重要语义表达区域的情况表现,具有较强的刻画能力,增加了多视角注意力模型的有效性和全面性,从而有效加强图像区域显著特征和问题特征的语义关联性,以提升视觉问答的语义理解的准确性和全面性。采用本发明所述的方法进行视觉问答任务,步骤简单、效率高、准确率高,完全可以用于商业,市场前景较佳。
0/0