一种基于文本的图像字幕任务的多模态transformer模型

    公开(公告)号:CN117475441A

    公开(公告)日:2024-01-30

    申请号:CN202311459531.2

    申请日:2023-11-03

    Inventor: 王文姣 刘斌

    Abstract: 本发明公开了一种基于文本的图像字幕任务的多模态transformer模型,提出在特征提取阶段,将空间关系升级到包含了高度和宽度关系、位置关系、IoU关系以及相对角度关系的更强的几何关系,改进了之前的仅依靠候选框来编码空间关系向量。通过共同嵌入视觉对象和OCR令牌的视觉特征、语义特征和几何关系特征,增强了先前模型中的特征向量以及对象间的空间联系。此外,通过在生成模块添加掩码模块,降低预测标题的冗余。

Patent Agency Ranking