-
公开(公告)号:CN117475441A
公开(公告)日:2024-01-30
申请号:CN202311459531.2
申请日:2023-11-03
Applicant: 南京工业大学
IPC: G06V30/148 , G06V20/70 , G06N5/04 , G06V10/82 , G06N3/0464 , G06T7/73
Abstract: 本发明公开了一种基于文本的图像字幕任务的多模态transformer模型,提出在特征提取阶段,将空间关系升级到包含了高度和宽度关系、位置关系、IoU关系以及相对角度关系的更强的几何关系,改进了之前的仅依靠候选框来编码空间关系向量。通过共同嵌入视觉对象和OCR令牌的视觉特征、语义特征和几何关系特征,增强了先前模型中的特征向量以及对象间的空间联系。此外,通过在生成模块添加掩码模块,降低预测标题的冗余。