-
公开(公告)号:CN117235534A
公开(公告)日:2023-12-15
申请号:CN202311508270.9
申请日:2023-11-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/22 , G06N3/08 , G06N3/045 , G06N3/0475
Abstract: 本说明书实施例涉及训练内容理解模型和内容生成模型的方法及装置,方法包括:使用目标训练集中由图像和文本构成的图文对,分别训练内容理解模型和内容生成模型,然后,针对含噪样本集进行样本处理,包括:将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中,得到若干候选文本,将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中,得到多个候选图像,将所述多个候选图像与所述第一图像进行相似度匹配,根据匹配结果确定目标文本,将所述第一图像与目标文本组成第二图文对,添加到所述目标训练集中,用于继续训练所述内容理解模型和内容生成模型。
-
公开(公告)号:CN118154891A
公开(公告)日:2024-06-07
申请号:CN202410419779.4
申请日:2024-04-08
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/40 , G06T11/60 , G06N3/08 , G06N3/0475 , G06N5/04
Abstract: 本申请一个或多个实施例提供一种多模态模型的预训练方法、装置、设备和存储介质,该方法包括:获取用于对多模态模型进行预训练的包括图像样本以及与图像样本对应的描述文本样本的多模态数据样本;将多模态数据样本输入多模态模型,以对图像样本进行特征提取,得到与图像样本对应的图像特征向量,并对描述文本样本进行特征提取,得到与描述文本样本对应的文本特征向量,以及,基于文本特征向量,生成与描述文本样本对应的图像,并基于图像特征向量,生成与图像样本对应的描述文本;基于生成的图像和图像样本确定第一损失,并基于生成的描述文本和描述文本样本确定第二损失,以及,基于第一损失和第二损失对多模态模型的模型参数进行调整。
-
公开(公告)号:CN120068981A
公开(公告)日:2025-05-30
申请号:CN202510230447.6
申请日:2025-02-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/084 , G06N3/09 , G06N3/045 , G06N3/0464 , G06F40/166 , G06F18/27 , G06V10/82
Abstract: 本说明书实施例提供一种多模态大模型的训练方法及装置,提供多模态大模型的训练方案,可以对多模态大模型中各个网络模块按照功能解耦,并对解耦后的网络模块进行分阶段的渐进训练,逐渐拓展模型的模态支持能力、在各模态达到较佳性能。这种训练方式可以有效实现各模态数据的稳定训练。
-
公开(公告)号:CN117235534B
公开(公告)日:2024-02-20
申请号:CN202311508270.9
申请日:2023-11-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/22 , G06N3/08 , G06N3/045 , G06N3/0475
Abstract: 本说明书实施例涉及训练内容理解模型和内容生成模型的方法及装置,方法包括:使用目标训练集中由图像和文本构成的图文对,分别训练内容理解模型和内容生成模型,然后,针对含噪样本集进行样本处理,包括:将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中,得到若干候选文本,将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中,得到多个候选图像,将所述多个候选图像与所述第一图像进行相似度匹配,根据匹配结果确定目标文本,将所述第一图像与目标文本组成第二图文对,添加到所述目标训练集中,用于继续训练所述内容理解模型和内容生成模型。
-
-
-