-
公开(公告)号:CN114422825A
公开(公告)日:2022-04-29
申请号:CN202210095944.6
申请日:2022-01-26
Applicant: 科大讯飞股份有限公司
IPC: H04N21/233 , H04N21/234 , H04N21/43 , H04N21/439 , H04N21/44 , H04N21/4415 , H04L41/14 , H04L41/16 , G06V40/20 , G06V40/16 , G06V20/40 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本申请公开一种音视频同步方法、装置、介质、设备及程序产品。该方法包括:对待处理视频进行特征提取,得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息,定长音频帧与定长视频帧的时长相同;将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中,计算待处理视频的音视频之间的时间偏差值,其中,训练好的同步网络模型是根据音视频同步的样本视频训练得到的;基于待处理视频的音视频之间的时间偏差值,对待处理视频中的视频流和音频流进行同步处理。本申请实施例在进行音视频同步时不依赖时间戳,可以基于面部唇形图像以及音频特征实现音视频同步,提高了音视频同步的准确性。