语音增强网络的训练方法、装置、存储介质及计算机设备

发明授权

CN116741193B 语音增强网络的训练方法、装置、存储介质及计算机设备有权

请登陆查看更多内容

专利标题： 语音增强网络的训练方法、装置、存储介质及计算机设备
申请号： CN202310999362.5

申请日： 2023-08-09
公开(公告)号： CN116741193B

公开(公告)日： 2023-11-14
发明人: 朱唯鑫 , 饶为 , 王燕南 , 胡一峰 , 石德夫 , 万陈丽 , 易高雄
申请人： 腾讯科技(深圳)有限公司
申请人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
专利权人： 腾讯科技(深圳)有限公司
当前专利权人： 腾讯科技(深圳)有限公司
当前专利权人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构： 深圳市智圈知识产权代理事务所
代理商 朱黎
主分类号： G10L21/0208
IPC分类号： G10L21/0208 ; G10L21/0264 ; G10L17/02 ; G10L25/30 ; G10L25/21 ; G10L25/24 ; G06N3/0442 ; G06N3/0464 ; G06N3/08

摘要：

本申请公开一种语音增强网络的训练方法，包括：获取训练集，训练集包括多个训练样本，训练样本包括样本参考语音、样本比对语音和混合语音；对样本参考语音进行声纹提取，得到样本声纹向量；对混合语音进行音频特征提取，得到样本音频特征；由语音增强网络基于样本声纹向量和样本音频特征进行增强处理，输出针对样本发声对象的预测音频特征；根据预测音频特征和样本比对语音对应的比对音频特征，确定语音增强网络的目标损失；基于目标损失迭代更新语音增强网络的权重参数，直至达到训练结束条件。本申请应用人工智能技术，能够基于源自同一发声对象的样本参考语音和样本比对语音，训练出用于抑制干扰人声的语音增强网络，有效提高语音增强的质量。

公开/授权文献

CN116741193A 语音增强网络的训练方法、装置、存储介质及计算机设备公开/授权日：2023-09-12

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/02	.语音增强，例如降低噪声或消除回声（在直线传送系统中减轻回声效应入H04B3/20；免提电话中的回声抑制入H04M9/08）
G10L21/0208	..噪声过滤