一种视觉问答方法、装置及电子设备和存储介质

    公开(公告)号:CN118038238A

    公开(公告)日:2024-05-14

    申请号:CN202410187614.9

    申请日:2024-02-20

    Abstract: 本发明涉及一种视觉问答方法、装置及电子设备和存储介质,该方法利用多模态BERT结构的视觉问答网络得到问题答案,视觉问答网络包括特征提取网络、特征调制网络、多模态特征融合网络和前馈神经网络,该方法的具体步骤包括:获取问题的图像和与其对应的文本;对问题的图像和与其对应的文本进行数据处理,得到语言特征和视觉特征;将语言特征和视觉特征进行特征调制得到调制后的视觉特征;利用多模态特征融合网络对调制后的视觉特征和语言特征进行特征融合,得到融合特征;利用前馈神经网络对融合特征进行处理,输出问题的预测答案。采用本发明方法更大程度地保留数据有益特征,特征间融合更加充分,在视觉问答场景下提高预测答案的准确率。

Patent Agency Ranking