发明公开
- 专利标题: 基于网格的协同注意力VQA方法和装置
- 专利标题(英): Collaborative attention VQA method and device based on grids
-
申请号: CN201910901463.8申请日: 2019-09-23
-
公开(公告)号: CN110704668A公开(公告)日: 2020-01-17
- 发明人: 付莹
- 申请人: 北京影谱科技股份有限公司
- 申请人地址: 北京市朝阳区朝外大街22号5层521室
- 专利权人: 北京影谱科技股份有限公司
- 当前专利权人: 北京影谱科技股份有限公司
- 当前专利权人地址: 北京市朝阳区朝外大街22号5层521室
- 代理机构: 北京万思博知识产权代理有限公司
- 代理商 高镇
- 主分类号: G06F16/583
- IPC分类号: G06F16/583 ; G06K9/62 ; G06N3/04
摘要:
本申请公开了一种基于网格的协同注意力VQA方法和装置,属于视觉问答领域。该方法包括:从数据集中获取图像并进行网格划分;将网格划分后的图像输入RCNN中,经卷积、池化及特征融合后得到特征图;从数据集中获取问题并映射到一个向量空间内得到词向量;根据特征图和词向量计算出相关矩阵,在计算出特征图的注意力分布和词向量的注意力分布;然后输入GRU计算得到新的词向量和对应的编码;采用MLP对新的词向量和对应的编码进行整合,得到问题对应的答案。该装置包括:划分模块、RCNN模块、映射模块、计算模块、GRU模块和MLP模块。本申请实现了图像和问题文本相互关注,提高了预测的准确率,提升了模型的性能。
公开/授权文献
- CN110704668B 基于网格的协同注意力VQA方法和装置 公开/授权日:2022-11-04