基于多角度图像的多模态问答方法、装置、电子设备

    公开(公告)号:CN119739814A

    公开(公告)日:2025-04-01

    申请号:CN202411550212.7

    申请日:2024-11-01

    Applicant: 北京大学

    Abstract: 本发明提供一种基于多角度图像的多模态问答方法、装置、电子设备,包括:获取用户输入的原始图像和问题文本,并基于原始图像生成若干张多角度图像,多角度图像用于表征原始图像中的同一实体的不同角度;对多角度图像分别进行预处理,得到多角度图像分别对应的嵌入式向量;获取与每个嵌入式向量分别对应的可训练软提示,并基于嵌入式向量和可训练软提示进行多视角特征感知处理,得到多角度视觉特征表示;基于多角度视觉特征表示和问题文本进行预测处理,得到与问题文本对应的答案。通过充分利用不同图像所含的视觉信息,模型在生成答案时获取到的视觉信息更加丰富全面,从而缓解在多模态问答过程中存在的幻觉问题,使得模型生成答案的精度更高。

Patent Agency Ranking