-
公开(公告)号:CN117711047A
公开(公告)日:2024-03-15
申请号:CN202311729854.9
申请日:2023-12-14
Applicant: 上海交通大学
IPC: G06V40/16 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/084
Abstract: 本发明提供了一种中文唇语识别方法及系统,包括:对讲话视频进行预处理,得到连续的嘴唇区域图像序列;将嘴唇区域图像序列输入到唇部区域特征编码器中,得到唇部区域特征编码向量;将视频特征编码向量、拼音中间表征编码向量、视位中间表征编码向量输入到中文讲话内容解码器中,解码得到中文汉语句子的讲话内容;根据拼音中间表征序列预测损失、视位中间表征序列预测损失和中文讲话内容预测损失,按比例加权后对唇语识别模型进行优化。本发明通过采用汉语拼音和视位作为多中间表征,使唇语识别模型从多角度提取视觉特征信息和语义特征信息,解决唇语识别模型无法有效利用视频中唇部区域的视觉信息的问题,提高唇语识别模型的识别性能和泛化能力。
-
公开(公告)号:CN117558064A
公开(公告)日:2024-02-13
申请号:CN202311629756.8
申请日:2023-11-30
Applicant: 上海交通大学
Abstract: 本发明提供了一种开集场景下防深度伪造的讲话人认证系统及方法,包括:特征提取模块:将讲话人说某个单词的唇部视频进行预处理得到滑动窗口视频组,基于滑动窗口视频组分别进行静态特征提取和动态特征提取,得到每个滑窗的静态特征和动态特征;再将静态特征和动态特征与时序融合得到视频的最终特征;其中,训练时利用静态特征提取模块中的重构损失、动态特征提取模块中的滑窗顺序预测损失和最终特征的认证损失进行监督,得到优化后的网络参数;推理时利用静态特征提取器、动态特征提取器和特征融合模块得到视频的最终特征;特征认证模块:利用用户的原型特征对视频的最终特征进行认证。
-