-
公开(公告)号:CN118823332B
公开(公告)日:2024-12-03
申请号:CN202411318858.2
申请日:2024-09-20
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/25 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06V10/80
Abstract: 本申请实施例提供了一种多模态模型预训练方法、装置、设备以及存储介质,涉及深度学习技术领域。具体实现方案为:对样本点云和样本图像分别进行掩码处理得到第一掩码点云和第一掩码图像;对第一掩码点云进行特征提取得到第一BEV特征,对第一掩码图像进行特征提取得到第一图像特征;将第一图像特征转换到BEV视角下后和第一BEV特征进行特征融合得到第二BEV特征;分别对第二BEV特征以及第二图像特征进行解码,得到第一预测结果、第二预测结果和第三预测结果;基于第一预测结果、第二预测结果和第三预测结果分别与对应的真值之间的差异,调整模型参数。可见,通过本方案,能够提高训练得到的多模态模型中的编码器处理下游任务的处理效果。
-
公开(公告)号:CN118823332A
公开(公告)日:2024-10-22
申请号:CN202411318858.2
申请日:2024-09-20
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/25 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06V10/80
Abstract: 本申请实施例提供了一种多模态模型预训练方法、装置、设备以及存储介质,涉及深度学习技术领域。具体实现方案为:对样本点云和样本图像分别进行掩码处理得到第一掩码点云和第一掩码图像;对第一掩码点云进行特征提取得到第一BEV特征,对第一掩码图像进行特征提取得到第一图像特征;将第一图像特征转换到BEV视角下后和第一BEV特征进行特征融合得到第二BEV特征;分别对第二BEV特征以及第二图像特征进行解码,得到第一预测结果、第二预测结果和第三预测结果;基于第一预测结果、第二预测结果和第三预测结果分别与对应的真值之间的差异,调整模型参数。可见,通过本方案,能够提高训练得到的多模态模型中的编码器处理下游任务的处理效果。
-