一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质

    公开(公告)号:CN113609355A

    公开(公告)日:2021-11-05

    申请号:CN202110908494.3

    申请日:2021-08-09

    Abstract: 本发明提出一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,计算物体空间特征和物体类别特征;其次,提取子视频的视觉运动特征;再其次,将物体空间、物体类别特征和视觉运动特征进行特征融合得到物体联合特征;再其次,对问题进行编码,获得问题特征,再其次,将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征;再其次,获得具有问题意识的物体关系特征;再其次,获得具有时序关系的视频特征;最后,得到融合特征生成答案。本发明解决了现有的视频问答系统不能有效地表示不同模态、同模态之间的关联程度和不能有针对性获取不同物体运动信息的问题。

Patent Agency Ranking