基于复合声学特征和低秩分解TDNN的说话人识别系统及方法

    公开(公告)号:CN112331216A

    公开(公告)日:2021-02-05

    申请号:CN202011183292.9

    申请日:2020-10-29

    Applicant: 同济大学

    Abstract: 基于复合声学特征和低秩分解TDNN的说话人识别系统及方法。对输入的语音信号在预处理后采用MFCC和归一化互相关函数进行声学特征提取,将两种特征复合;在说话人模块中,将复合声学特征输入低秩矩阵分解TDNN进行帧级别特征提取,再经过统计池化层后,通过两个全连接层和一个softmax层完成段级别特征提取,并得到输入语音对应的特征向量。上述方法在采用低秩矩阵分解对TDNN进行优化,能够显著减小参数规模,加快训练速度;同时在网络中采用跳层连接,以减少梯度消失的出现;相较于常规声学特征提取在MFCC特征的基础上增加了归一化互相关函数进行音高特征提取,弥补了单纯采用MFCC对高频信息的损失,增加了特征的多样性,提高说话人识别的准确性。

Patent Agency Ranking