-
公开(公告)号:CN119943058A
公开(公告)日:2025-05-06
申请号:CN202510118255.6
申请日:2025-01-24
Applicant: 厦门大学
Abstract: 本申请提出了一种基于时频域动态特征矩阵的说话人识别方法和系统,将原始语音的时间动态特征序列映射为二维图像并通过相似性矩阵计算相似度,采用自适应加权方法增强时间动态特征序列中的时域动态特征;对原始语音进行短时傅里叶变换得到频谱值并计算频域动态特征,对相似性阈值进行动态调整;在卷积神经网络模型CNN中进行训练,通过传统方式提取声学特征得到原始语音的初始说话人特征;特征融合分类器根据全连接层的加权自适应融合的特征向量计算说话人的类别概率分布,将概率最大的类别作为最终的结果。本申请提高了复杂场景中说话人识别的准确性和鲁棒性,增强了对不同语音场景的适应能力,更好地保留了语音信号中识别说话人身份的信息。