- 专利标题: 一种跨模态唇读的对抗性双重对比自监督学习方法
-
申请号: CN202110773180.7申请日: 2021-07-08
-
公开(公告)号: CN113239903B公开(公告)日: 2021-10-01
- 发明人: 张雪毅 , 刘丽 , 常冲 , 刘忠 , 龙云利
- 申请人: 中国人民解放军国防科技大学
- 申请人地址: 湖南省长沙市开福区德雅路109号
- 专利权人: 中国人民解放军国防科技大学
- 当前专利权人: 中国人民解放军国防科技大学
- 当前专利权人地址: 湖南省长沙市开福区德雅路109号
- 代理机构: 北京风雅颂专利代理有限公司
- 代理商 曾志鹏
- 主分类号: G06K9/00
- IPC分类号: G06K9/00 ; G06K9/62 ; G06N3/08 ; G10L15/06 ; G10L15/16 ; G10L15/25
摘要:
本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法,该方法包括视觉编码器、音频编码器、两个具有平均池的多尺度时间卷积网络、身份鉴别器和模态分类器。该方法通过结合基于视听同步的双对比学习、身份对抗训练和模态对抗训练来学习有效的视觉表示。在双对比学习中,将噪声对比估计作为训练目标,来区分真实样本和噪声样本。在对抗训练中,提出了一个身份鉴别器和一个模态分类器用于视听表示,身份鉴别器用来区分输入的视觉特征是否具有共同的身份,模态分类器是预测输入特征是属于视觉模态还是音频模态,然后利用动量梯度反转层实现对抗性训练。
公开/授权文献
- CN113239903A 一种跨模态唇读的对抗性双重对比自监督学习方法 公开/授权日:2021-08-10