一种语音鉴伪与说话人识别联合建模的方法
摘要:
本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
公开/授权文献
0/0