基于区分性字典与分类器联合学习的说话人识别方法

    公开(公告)号:CN115512708A

    公开(公告)日:2022-12-23

    申请号:CN202211218439.2

    申请日:2022-10-05

    Abstract: 本发明公开了一种基于区分性字典与分类器联合学习的说话人识别方法,该方法在训练数据中增加分类器参数和正则化参数,提高了传统说话人识别系统的正确率,是在传统字典学习基础上的创新。本发明在训练阶段,首先对语音提取i‑vector,将其和One‑Hot拼接后作为稀疏分解的输入;然后初始化字典和分类器参数,获取i‑vector在字典上的稀疏表示;最后利用K均值‑奇异值分解(KSVD)算法更新字典。在识别阶段,首先利用字典与其二范数的商作为识别阶段的字典,同理得到分类器参数;然后计算测试语音在字典上的稀疏表示,分类器参数和稀疏表示的积是说话人在不同字典上的得分;最后判断得分最高说话人是否是测试说话人。本发明可以应用于说话人识别领域。

    一种基于特征差异最大化的说话人识别方法

    公开(公告)号:CN114613369A

    公开(公告)日:2022-06-10

    申请号:CN202210221405.2

    申请日:2022-03-07

    Abstract: 本发明公开了一种基于特征差异最大化的说话人识别方法,使得说话人特征差异最大化,增加区分性。降低说话人识别系统的错误率。首先将训练集集的全部音频文件进行预处理,生成语谱图特征。将语谱图特征作为VGG‑M的输入,生成嵌入特征(embedding)。然后使用NPLDA打分选取三元组语音对,使用NPLDA的目标函数训练NPLDA模型,使用互信息损失函数计算正负样本对的损失,与NPLDA共同训练VGG‑M网络。在测试阶段,使用训练好的网络提取测试说话人和目标说话人的嵌入特征。使用余弦打分计算两种嵌入特征的相似度,即相似度得分。将计算好的相似度得分与设置好的阈值进行比较,判断是否语音来自同一说话人。该方法通过NPLDA选取三元组对,使得不同说话人特征差异更明显,并利用互信息损失函数和NPLDA共同优化网络,降低识别的错误率。本发明可以应用于说话人识别领域。

    基于区分性字典与分类器联合学习的说话人识别方法

    公开(公告)号:CN115512708B

    公开(公告)日:2024-05-07

    申请号:CN202211218439.2

    申请日:2022-10-05

    Abstract: 本发明公开了一种基于区分性字典与分类器联合学习的说话人识别方法,该方法在训练数据中增加分类器参数和正则化参数,提高了传统说话人识别系统的正确率,是在传统字典学习基础上的创新。本发明在训练阶段,首先对语音提取i‑vector,将其和One‑Hot拼接后作为稀疏分解的输入;然后初始化字典和分类器参数,获取i‑vector在字典上的稀疏表示;最后利用K均值‑奇异值分解(KSVD)算法更新字典。在识别阶段,首先利用字典与其二范数的商作为识别阶段的字典,同理得到分类器参数;然后计算测试语音在字典上的稀疏表示,分类器参数和稀疏表示的积是说话人在不同字典上的得分;最后判断得分最高说话人是否是测试说话人。本发明可以应用于说话人识别领域。

    一种基于特征差异最大化的说话人识别方法

    公开(公告)号:CN114613369B

    公开(公告)日:2024-08-09

    申请号:CN202210221405.2

    申请日:2022-03-07

    Abstract: 本发明公开了一种基于特征差异最大化的说话人识别方法,使得说话人特征差异最大化,增加区分性。降低说话人识别系统的错误率。首先将训练集集的全部音频文件进行预处理,生成语谱图特征。将语谱图特征作为VGG‑M的输入,生成嵌入特征(embedding)。然后使用NPLDA打分选取三元组语音对,使用NPLDA的目标函数训练NPLDA模型,使用互信息损失函数计算正负样本对的损失,与NPLDA共同训练VGG‑M网络。在测试阶段,使用训练好的网络提取测试说话人和目标说话人的嵌入特征。使用余弦打分计算两种嵌入特征的相似度,即相似度得分。将计算好的相似度得分与设置好的阈值进行比较,判断是否语音来自同一说话人。该方法通过NPLDA选取三元组对,使得不同说话人特征差异更明显,并利用互信息损失函数和NPLDA共同优化网络,降低识别的错误率。本发明可以应用于说话人识别领域。

Patent Agency Ranking