一种基于语音识别的视频中音频流替换方法
摘要:
本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为:首先通过对音频进行端点检测得到音频中人说的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成,实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间,得到识别结果中每个字在音频中的起始时间与结束时间,通过计算使得视频中音频流替换更加科学准确,可以在语音识别效果检测和视频制作领域起到巨大作用。
公开/授权文献
0/0