发明公开
- 专利标题: 基于跨粒度自蒸馏的视频-文本跨模态检索方法
-
申请号: CN202210174138.8申请日: 2022-02-24
-
公开(公告)号: CN114548293A公开(公告)日: 2022-05-27
- 发明人: 杨盈昀 , 王家宸 , 花妍
- 申请人: 中国传媒大学
- 申请人地址: 北京市朝阳区定福庄东街1号
- 专利权人: 中国传媒大学
- 当前专利权人: 中国传媒大学
- 当前专利权人地址: 北京市朝阳区定福庄东街1号
- 代理机构: 北京思海天达知识产权代理有限公司
- 代理商 沈波
- 主分类号: G06K9/62
- IPC分类号: G06K9/62 ; G06V10/74 ; G06V10/82 ; G06F16/783 ; G06F16/33 ; G06N3/04 ; G06N3/08
摘要:
本发明公开了基于跨粒度自蒸馏的视频‑文本跨模态检索方法。该方法旨在通过细粒度交互相似度提供伪标签,解决跨模态对比学习中二元标签不够平滑,不符合真实情况的问题。该方法首先设计了一个筛选模块,为各模态筛选一部分关键tokens,用于计算token级细粒度相似度。接着以此细粒度相似度作为软标签,结合对比损失,联合优化各模态编码器。本方法在训练阶段时引入跨粒度自蒸馏来改善对比学习标签的天然缺陷,但在检索时并不会有额外的计算消耗,因此是一种高效的方法。