-
公开(公告)号:CN112992155B
公开(公告)日:2022-10-14
申请号:CN202110231097.7
申请日:2021-03-02
Applicant: 复旦大学
Abstract: 本发明提供了一种基于残差神经网络的远场语音说话人识别方法及装置,用于在嘈杂混响且有多个说话人的环境下,对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人,其特征在于,包括如下步骤:对待测音频进行预处理得到预处理短时语音;利用语音活动检测模型对预处理短时语音进行语音分割得到分割结果,并从滤除了噪声以及静音的分割结果中提取得到语音向量特征;基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量;基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值,根据该语音相似度值确定待测音频对应的说话人。
-
公开(公告)号:CN112992155A
公开(公告)日:2021-06-18
申请号:CN202110231097.7
申请日:2021-03-02
Applicant: 复旦大学
Abstract: 本发明提供了一种基于残差神经网络的远场语音说话人识别方法及装置,用于在嘈杂混响且有多个说话人的环境下,对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人,其特征在于,包括如下步骤:对待测音频进行预处理得到预处理短时语音;利用语音活动检测模型对预处理短时语音进行语音分割得到分割结果,并从滤除了噪声以及静音的分割结果中提取得到语音向量特征;基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量;基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值,根据该语音相似度值确定待测音频对应的说话人。
-