-
公开(公告)号:CN112331216A
公开(公告)日:2021-02-05
申请号:CN202011183292.9
申请日:2020-10-29
Applicant: 同济大学
Abstract: 基于复合声学特征和低秩分解TDNN的说话人识别系统及方法。对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取,将两种特征复合;在说话人模块中,将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取,再经过统计池化层后,通过两个全连接层和一个softmax层完成段级别特征提取,并得到输入语音对应的特征向量。上述方法在采用低秩矩阵分解对TDNN进行优化,能够显著减小参数规模,加快训练速度;同时在网络中采用跳层连接,以减少梯度消失的出现;相较于常规声学特征提取在MFCC特征的基础上增加了归一化互相关函数进行音高特征提取,弥补了单纯采用MFCC对高频信息的损失,增加了特征的多样性,提高说话人识别的准确性。