Patent search ap:("南京工业大学") AND inv:"王文姣" Page 1

1.

发明公开
一种基于文本的图像字幕任务的多模态transformer模型审中-公开

公开(公告)号：CN117475441A

公开(公告)日：2024-01-30

申请号：CN202311459531.2

申请日：2023-11-03

Applicant: 南京工业大学

Inventor： 王文姣 , 刘斌

IPC: G06V30/148 , G06V20/70 , G06N5/04 , G06V10/82 , G06N3/0464 , G06T7/73

Abstract: 本发明公开了一种基于文本的图像字幕任务的多模态transformer模型，提出在特征提取阶段，将空间关系升级到包含了高度和宽度关系、位置关系、IoU关系以及相对角度关系的更强的几何关系，改进了之前的仅依靠候选框来编码空间关系向量。通过共同嵌入视觉对象和OCR令牌的视觉特征、语义特征和几何关系特征，增强了先前模型中的特征向量以及对象间的空间联系。此外，通过在生成模块添加掩码模块，降低预测标题的冗余。

Patent Agency Ranking