-
公开(公告)号:CN116665677A
公开(公告)日:2023-08-29
申请号:CN202310425774.8
申请日:2023-04-20
Applicant: 南昌大学
IPC: G10L17/02 , G10L17/04 , G10L17/18 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法。利用说话人分离网络估计出混合语音中的每个说话人的语音信号,对估计出的语音信号进行分段,对每段语音信号采用不同的SincNet滤波器提取各段的语音信号特征向量。聚合所有段的特征向量,在时间维度上计算出其均值和标准差,合并构成话语级特征,通过深度神经网络实现说话人的识别。利用估计语音与干净语音之间的尺度不变信噪比损失以及预测标签与真实标签之间的分类交叉熵损失,采用多任务学习算法联合优化整体网络,实现说话人的分离和识别。