一种跨模态唇读的对抗性双重对比自监督学习方法

发明授权

CN113239903B 一种跨模态唇读的对抗性双重对比自监督学习方法有权

请登陆查看更多内容

专利标题： 一种跨模态唇读的对抗性双重对比自监督学习方法
申请号： CN202110773180.7

申请日： 2021-07-08
公开(公告)号： CN113239903B

公开(公告)日： 2021-10-01
发明人: 张雪毅 , 刘丽 , 常冲 , 刘忠 , 龙云利
申请人： 中国人民解放军国防科技大学
申请人地址： 湖南省长沙市开福区德雅路109号
专利权人： 中国人民解放军国防科技大学
当前专利权人： 中国人民解放军国防科技大学
当前专利权人地址： 湖南省长沙市开福区德雅路109号
代理机构： 北京风雅颂专利代理有限公司
代理商 曾志鹏
主分类号： G06K9/00
IPC分类号： G06K9/00 ; G06K9/62 ; G06N3/08 ; G10L15/06 ; G10L15/16 ; G10L15/25

摘要：

本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法，该方法包括视觉编码器、音频编码器、两个具有平均池的多尺度时间卷积网络、身份鉴别器和模态分类器。该方法通过结合基于视听同步的双对比学习、身份对抗训练和模态对抗训练来学习有效的视觉表示。在双对比学习中，将噪声对比估计作为训练目标，来区分真实样本和噪声样本。在对抗训练中，提出了一个身份鉴别器和一个模态分类器用于视听表示，身份鉴别器用来区分输入的视觉特征是否具有共同的身份，模态分类器是预测输入特征是属于视觉模态还是音频模态，然后利用动量梯度反转层实现对抗性训练。

公开/授权文献

CN113239903A 一种跨模态唇读的对抗性双重对比自监督学习方法公开/授权日：2021-08-10

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06K	图形数据读取（图像或视频识别或理解G06V）；数据的呈现；记录载体；处理记录载体
G06K9/00	识别模式的方法或装置（图形读取或将机械参数模式（例如力或存在）转换为电信号的方法或装置 G06K11/00）（图像或视频识别或理解 G06V）（语音识别 G10L15/00 )