一种跨模态唇读的对抗性双重对比自监督学习方法
摘要:
本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法,该方法包括视觉编码器、音频编码器、两个具有平均池的多尺度时间卷积网络、身份鉴别器和模态分类器。该方法通过结合基于视听同步的双对比学习、身份对抗训练和模态对抗训练来学习有效的视觉表示。在双对比学习中,将噪声对比估计作为训练目标,来区分真实样本和噪声样本。在对抗训练中,提出了一个身份鉴别器和一个模态分类器用于视听表示,身份鉴别器用来区分输入的视觉特征是否具有共同的身份,模态分类器是预测输入特征是属于视觉模态还是音频模态,然后利用动量梯度反转层实现对抗性训练。
0/0