多模态语音处理方法、设备、介质和计算机程序产品

    公开(公告)号:CN119360877A

    公开(公告)日:2025-01-24

    申请号:CN202411316422.X

    申请日:2024-09-20

    Abstract: 本公开涉及语音识别技术领域,尤其是提供一种多模态语音处理方法、设备、介质和计算机程序产品。上述多模态语音处理方法包括:获取待处理音视频数据,并对待处理音视频数据进行数据分离处理,获得原始音频数据和原始视频数据;对原始视频数据进行人脸检测处理,获得初始视频数据;对原始音频数据进行音频检测处理,获得初始音频数据;对初始视频数据和初始音频数据进行一致性检测处理,在满足一致性校验条件的情况下,输出目标音频数据和目标视频数据。本公开通过人脸检测识别视频中的人脸,通过音频检测识别和分离噪声与目标说话人的声音,通过一致性检测确保音频和视频数据在时间和内容上的同步和匹配,从而支持多模态语音分离任务的开展。

Patent Agency Ranking