-
公开(公告)号:CN116912616A
公开(公告)日:2023-10-20
申请号:CN202310673660.5
申请日:2023-06-07
Applicant: 中国科学院自动化研究所 , 百度在线网络技术(北京)有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06F40/126
Abstract: 本发明提供一种图文预训练模型的训练方法、训练装置及电子设备,涉及深度学习技术领域,该方法包括:构建初始图文预训练模型,初始图文预训练模型包含生成器模块和判别器模块,生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,跨模态融合编码器用于融合图像编码器和文本编码器输出的特征;针对每种预训练任务,基于生成器模块的生成结果对判别器模块进行训练,并基于训练后的判别器模块,得到目标图文预训练模型。使得最终得到的目标图文预训练模型能够与下游任务完全匹配,从而能够在各种图文下游任务中取得更好的效果。
-
公开(公告)号:CN116912616B
公开(公告)日:2024-11-01
申请号:CN202310673660.5
申请日:2023-06-07
Applicant: 中国科学院自动化研究所 , 百度在线网络技术(北京)有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06F40/126
Abstract: 本发明提供一种图文预训练模型的训练方法、训练装置及电子设备,涉及深度学习技术领域,该方法包括:构建初始图文预训练模型,初始图文预训练模型包含生成器模块和判别器模块,生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,跨模态融合编码器用于融合图像编码器和文本编码器输出的特征;针对每种预训练任务,基于生成器模块的生成结果对判别器模块进行训练,并基于训练后的判别器模块,得到目标图文预训练模型。使得最终得到的目标图文预训练模型能够与下游任务完全匹配,从而能够在各种图文下游任务中取得更好的效果。
-