一种基于特征差异最大化的说话人识别方法

    公开(公告)号:CN114613369B

    公开(公告)日:2024-08-09

    申请号:CN202210221405.2

    申请日:2022-03-07

    Abstract: 本发明公开了一种基于特征差异最大化的说话人识别方法,使得说话人特征差异最大化,增加区分性。降低说话人识别系统的错误率。首先将训练集集的全部音频文件进行预处理,生成语谱图特征。将语谱图特征作为VGG‑M的输入,生成嵌入特征(embedding)。然后使用NPLDA打分选取三元组语音对,使用NPLDA的目标函数训练NPLDA模型,使用互信息损失函数计算正负样本对的损失,与NPLDA共同训练VGG‑M网络。在测试阶段,使用训练好的网络提取测试说话人和目标说话人的嵌入特征。使用余弦打分计算两种嵌入特征的相似度,即相似度得分。将计算好的相似度得分与设置好的阈值进行比较,判断是否语音来自同一说话人。该方法通过NPLDA选取三元组对,使得不同说话人特征差异更明显,并利用互信息损失函数和NPLDA共同优化网络,降低识别的错误率。本发明可以应用于说话人识别领域。

    一种基于旋律特征聚类与优化的哼唱检索方法

    公开(公告)号:CN113377994A

    公开(公告)日:2021-09-10

    申请号:CN202110773772.9

    申请日:2021-07-08

    Abstract: 本申请涉及一种基于旋律特征聚类与优化的哼唱检索方法,包括:对训练数据进行旋律特征提取,该特征为音高向量;对音高向量进行聚类并利用聚类标签训练DBN网络;利用训练好的DBN模型对测试数据提取特征;与训练集旋律特征库中的旋律特征进行匹配并找到所属类别,在类内继续匹配输出检索结果。本方法将优化初始聚类中心的k‑means算法引入到哼唱检索中,其能够依据高密度优先聚类的思想,有效提升密度差异较大数据集的聚类效果,聚类后同簇的旋律特征具有更高的结构相似性。本发明不仅检索稳定高效,而且检索精度高。

    一种基于特征差异最大化的说话人识别方法

    公开(公告)号:CN114613369A

    公开(公告)日:2022-06-10

    申请号:CN202210221405.2

    申请日:2022-03-07

    Abstract: 本发明公开了一种基于特征差异最大化的说话人识别方法,使得说话人特征差异最大化,增加区分性。降低说话人识别系统的错误率。首先将训练集集的全部音频文件进行预处理,生成语谱图特征。将语谱图特征作为VGG‑M的输入,生成嵌入特征(embedding)。然后使用NPLDA打分选取三元组语音对,使用NPLDA的目标函数训练NPLDA模型,使用互信息损失函数计算正负样本对的损失,与NPLDA共同训练VGG‑M网络。在测试阶段,使用训练好的网络提取测试说话人和目标说话人的嵌入特征。使用余弦打分计算两种嵌入特征的相似度,即相似度得分。将计算好的相似度得分与设置好的阈值进行比较,判断是否语音来自同一说话人。该方法通过NPLDA选取三元组对,使得不同说话人特征差异更明显,并利用互信息损失函数和NPLDA共同优化网络,降低识别的错误率。本发明可以应用于说话人识别领域。

Patent Agency Ranking