基于跨粒度自蒸馏的视频-文本跨模态检索方法
摘要:
本发明公开了基于跨粒度自蒸馏的视频‑文本跨模态检索方法。该方法旨在通过细粒度交互相似度提供伪标签,解决跨模态对比学习中二元标签不够平滑,不符合真实情况的问题。该方法首先设计了一个筛选模块,为各模态筛选一部分关键tokens,用于计算token级细粒度相似度。接着以此细粒度相似度作为软标签,结合对比损失,联合优化各模态编码器。本方法在训练阶段时引入跨粒度自蒸馏来改善对比学习标签的天然缺陷,但在检索时并不会有额外的计算消耗,因此是一种高效的方法。
0/0