发明授权
- 专利标题: 一种基于语音识别的视频中音频流替换方法
-
申请号: CN202110425839.X申请日: 2021-04-20
-
公开(公告)号: CN113179442B公开(公告)日: 2022-04-29
- 发明人: 徐浩然 , 沈童 , 潘晨高 , 张鑫晟 , 王英钒 , 高飞
- 申请人: 浙江工业大学
- 申请人地址: 浙江省杭州市拱墅区朝晖六区潮王路18号
- 专利权人: 浙江工业大学
- 当前专利权人: 浙江工业大学
- 当前专利权人地址: 浙江省杭州市拱墅区朝晖六区潮王路18号
- 代理机构: 杭州浙科专利事务所
- 代理商 周红芳
- 主分类号: H04N21/43
- IPC分类号: H04N21/43 ; H04N21/439 ; H04N5/262 ; H04N5/04 ; G10L15/26 ; G10L25/24 ; G10L25/57 ; G10L25/51 ; G10L21/043 ; G10L21/0208
摘要:
本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为:首先通过对音频进行端点检测得到音频中人说的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成,实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间,得到识别结果中每个字在音频中的起始时间与结束时间,通过计算使得视频中音频流替换更加科学准确,可以在语音识别效果检测和视频制作领域起到巨大作用。
公开/授权文献
- CN113179442A 一种基于语音识别的视频中音频流替换方法 公开/授权日:2021-07-27