Patent search ap:("浙江大学") AND inv:"徐逸凡" Page 1

1.

发明公开
一种视觉问答数据增强方法、装置、设备及存储介质审中-实审

公开(公告)号：CN119128118A

公开(公告)日：2024-12-13

申请号：CN202411612390.8

申请日：2024-11-13

Applicant: 浙江大学

Inventor： 徐逸凡 , 张文桥 , 汤斯亮 , 李俊成 , 庄越挺

IPC: G06F16/332 , G06V30/148

Abstract: 本发明提供了一种视觉问答数据增强方法、装置、设备及存储介质，属于人工智能技术领域，包括获取视觉问答任务的原始数据集；提取原始问题中用于描述原始图像中物体的目标名词，将目标名词输入大语言模型，通过大语言模型生成多个与目标名词相关的新问答对，将新问答对和原始问答对进行合并得到增强后的文本提示；根据数据增强后的文本提示，对原始图像进行目标检测，得到文本提示对应物体的边界框，基于边界框对图像进行分割提取，得到分割掩码图像；根据分割掩码图像及数据增强后的文本提示对原始图像进行重绘，得到增强后的图像。该方法能够得到更高质量的视觉问答数据，从而提高视觉问答模型的准确性，减少VQA中的语言偏差问题。

Patent Agency Ranking