-
公开(公告)号:CN117935293A
公开(公告)日:2024-04-26
申请号:CN202211245140.6
申请日:2022-10-12
Applicant: 东北大学
IPC: G06V30/41 , G06V30/166 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0499 , G06N3/092
Abstract: 本发明提供一种基于多线索交互的跨模态图像描述方法,涉及图像描述生成技术领域。该方法首选获取包括图像和描述文本的图像数据集,并对数据集进行预处理;再对预处理后的数据集中的图像、描述文本分别进行单模态特征提取,得到图像的场景特征和目标特征以及描述文本的文本特征;构建多线索层次化Transformer模型作为图像描述模型;使用训练集中的样本提取的场景特征、目标特征和文本特征对多线索层次化Transformer模型进行训练,得到训练好的图像描述模型;最后使用训练好的图像描述模型对待描述图像进行描述。该方法解决了图像为场景特征或者图像中不存在显著性目标等问题导致的描述文本质量不佳的问题。