Patent search ap:("北京百度网讯科技有限公司") AND inv:"程梦钧" Page 1

1.

发明公开
视觉场景文本融合模型的预训练和图文检索方法及装置审中-实审

公开(公告)号：CN114942984A

公开(公告)日：2022-08-26

申请号：CN202210590151.1

申请日：2022-05-26

Applicant: 北京百度网讯科技有限公司

Inventor： 孙逸鹏 , 程梦钧 , 王龙超 , 朱雄威 , 姚锟 , 韩钧宇 , 刘经拓 , 丁二锐 , 王井东 , 王海峰

IPC: G06F16/332 , G06F16/38 , G06F16/532 , G06F16/58 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V10/42 , G06V10/80 , G06V10/82

Abstract: 本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置，涉及人工智能技术领域，具体涉及深度学习、图像处理和计算机视觉技术领域。具体实现方案为：获取样本图文对；提取样本图像中的样本场景文本；将样本文本输入文本编码网络，得到样本文本特征；将样本图像和初始的样本融合特征输入视觉编码子网络，以及将初始的样本融合特征和样本场景文本输入场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征；根据样本文本特征、样本图像的全局图像特征和经学习的样本融合特征，对视觉场景文本融合模型进行预训练。通过上述技术方案，能够提高图文跨模态检索性能。

2.

发明授权
视觉场景文本融合模型的预训练和图文检索方法及装置有权

公开(公告)号：CN114942984B

公开(公告)日：2023-11-21

申请号：CN202210590151.1

申请日：2022-05-26

Applicant: 北京百度网讯科技有限公司

Inventor： 孙逸鹏 , 程梦钧 , 王龙超 , 朱雄威 , 姚锟 , 韩钧宇 , 刘经拓 , 丁二锐 , 王井东 , 王海峰

IPC: G06F16/332 , G06F16/38 , G06F16/532 , G06F16/58 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/08 , G06V10/42 , G06V10/80 , G06V10/82

Patent Agency Ranking