一种基于语音识别的视频中音频流替换方法

发明授权

请登陆查看更多内容

专利标题： 一种基于语音识别的视频中音频流替换方法
申请号： CN202110425839.X

申请日： 2021-04-20
公开(公告)号： CN113179442B

公开(公告)日： 2022-04-29
发明人: 徐浩然 , 沈童 , 潘晨高 , 张鑫晟 , 王英钒 , 高飞
申请人： 浙江工业大学
申请人地址： 浙江省杭州市拱墅区朝晖六区潮王路18号
专利权人： 浙江工业大学
当前专利权人： 浙江工业大学
当前专利权人地址： 浙江省杭州市拱墅区朝晖六区潮王路18号
代理机构： 杭州浙科专利事务所
代理商 周红芳
主分类号： H04N21/43
IPC分类号： H04N21/43 ; H04N21/439 ; H04N5/262 ; H04N5/04 ; G10L15/26 ; G10L25/24 ; G10L25/57 ; G10L25/51 ; G10L21/043 ; G10L21/0208

摘要：

本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为：首先通过对音频进行端点检测得到音频中人说的前后端点，然后对音频进行降噪提取特征值，再通过声音模型和语言模型进行语音识别，然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成，实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间，得到识别结果中每个字在音频中的起始时间与结束时间，通过计算使得视频中音频流替换更加科学准确，可以在语音识别效果检测和视频制作领域起到巨大作用。

公开/授权文献

CN113179442A 一种基于语音识别的视频中音频流替换方法公开/授权日：2021-07-27

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

H	电学
H04	电通信技术
H04N	图像通信，如电视
H04N21/00	可选的内容分发，例如交互式电视,或视频点播[VOD]（运动视频数据的实时双向传输入H04N7/14）
H04N21/40	.专门适用于接收内容或者与内容交互的客户端设备，如STB〔机顶盒〕；相关操作
H04N21/43	..内容或者附加数据的处理，例如解复用来自数字视频流的附加数据；基本客户端操作，例如：本地网络的监控或者译码器时钟的同步；客户端中间件