一种视觉问答数据增强方法、装置、设备及存储介质

    公开(公告)号:CN119128118A

    公开(公告)日:2024-12-13

    申请号:CN202411612390.8

    申请日:2024-11-13

    Applicant: 浙江大学

    Abstract: 本发明提供了一种视觉问答数据增强方法、装置、设备及存储介质,属于人工智能技术领域,包括获取视觉问答任务的原始数据集;提取原始问题中用于描述原始图像中物体的目标名词,将目标名词输入大语言模型,通过大语言模型生成多个与目标名词相关的新问答对,将新问答对和原始问答对进行合并得到增强后的文本提示;根据数据增强后的文本提示,对原始图像进行目标检测,得到文本提示对应物体的边界框,基于边界框对图像进行分割提取,得到分割掩码图像;根据分割掩码图像及数据增强后的文本提示对原始图像进行重绘,得到增强后的图像。该方法能够得到更高质量的视觉问答数据,从而提高视觉问答模型的准确性,减少VQA中的语言偏差问题。

Patent Agency Ranking