-
公开(公告)号:CN114998670A
公开(公告)日:2022-09-02
申请号:CN202210391286.5
申请日:2022-04-14
Applicant: 哈尔滨工业大学重庆研究院
IPC: G06V10/774 , G06K9/62 , G06V10/46 , G06V10/80 , G06V10/82 , G06F40/253 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供的多模态信息预训练方法及系统,涉及人工智能技术领域,通过构建第一多模态信息,基于MOCO对比学习模型,随机选择第一图像集合中的一个或多个图像进行几何变换,得到第二图像集合,基于MOCO对比学习模型,随机选择第一文本集合中的一个或多个文本进行语法结构变换,得到第二文本集合,分别对第二图像集合中的各个图像进行编码,生成对应的第一高维隐向量集合,根据目标损失值,对第一多模态信息进行预训练,在有限负样本下,使得网络模型能够接触更多的负样本,增大类间距离,有利于细粒度地检索图文,极大地节省了时间,能够达到更好的预训练效果。
-
公开(公告)号:CN114998670B
公开(公告)日:2024-05-28
申请号:CN202210391286.5
申请日:2022-04-14
Applicant: 哈尔滨工业大学重庆研究院
IPC: G06V10/774 , G06F18/214 , G06V10/46 , G06V10/80 , G06V10/82 , G06F40/253 , G06F40/289 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/0895
Abstract: 本发明提供的多模态信息预训练方法及系统,涉及人工智能技术领域,通过构建第一多模态信息,基于MOCO对比学习模型,随机选择第一图像集合中的一个或多个图像进行几何变换,得到第二图像集合,基于MOCO对比学习模型,随机选择第一文本集合中的一个或多个文本进行语法结构变换,得到第二文本集合,分别对第二图像集合中的各个图像进行编码,生成对应的第一高维隐向量集合,根据目标损失值,对第一多模态信息进行预训练,在有限负样本下,使得网络模型能够接触更多的负样本,增大类间距离,有利于细粒度地检索图文,极大地节省了时间,能够达到更好的预训练效果。
-