-
公开(公告)号:CN118378633A
公开(公告)日:2024-07-23
申请号:CN202410480796.9
申请日:2024-04-22
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团有限公司
IPC: G06F40/35 , G06F16/332 , G06F16/33 , G06N5/04
Abstract: 本申请提供一种模型训练方法、装置、设备、存储介质及程序产品,涉及人工智能领域,包括:获取包括第一图像和第一图像的提示词文本的第一训练数据集;利用第一图像编码器对第一图像进行编码,得到第一视觉标记特征;利用第一文本编码器对提示词文本进行编码,得到第一文本标记特征;与同一个目标对象相关的第一文本标记特征和第一视觉标记特征对齐;根据第一视觉标记特征和第一文本标记特征,对与提示词文本对应的原始语言指令进行位置信息增强,获得增强语言指令;利用增强语言指令和经过线性层编码的第一视觉标记特征,训练LLM,得到多模态对话模型,多模态对话模型用于针对多模态的输入信息进行推理问答。本方案不依赖其他目标检测模型。