一种基于图文全局信息的图文模型训练方法及系统

    公开(公告)号:CN119152520A

    公开(公告)日:2024-12-17

    申请号:CN202411153906.7

    申请日:2024-08-21

    Abstract: 本发明提供一种基于图文全局信息的图文模型训练方法及系统,包括:获取原始的文本信息、多图范式和图像信息;将所述图像信息输入至预设的图文模型中的多图范式编码器生成多个图像的关联特征;将所述多图范式和图像信息输入至预设的图文模型中的图文语义转换器获取转换后的图像特征;将所述文本信息、所述多个图像的关联特征和转换后的图像特征输入至预设的图文模型中的大语言模型,对所述大语言模型进行训练,完成多图与视频图文之间的关联识别,得到训练后的多模态图文模型。本发明解决了现有图文模态之间存在数据壁垒,难以深入协同理解处理的问题。

Patent Agency Ranking