基于调整余弦互信息估计的语种识别方法

    公开(公告)号:CN114639372B

    公开(公告)日:2024-10-25

    申请号:CN202210221484.7

    申请日:2022-03-07

    Abstract: 本发明公开了一种基于调整余弦互信息估计的语种识别方法,解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding(嵌入特征)区分能力不强的问题。在训练阶段,先将训练集的声学特征做预处理,输入TDNN‑F网络;然后将网络中输出的embeddings根据半困难负样本挖掘策略,选择出正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练。在识别阶段,先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings;然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化;最后使用逻辑回归(LR)分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。

    基于概率有监督总变化空间学习的语种识别方法

    公开(公告)号:CN115762473B

    公开(公告)日:2024-08-09

    申请号:CN202211186809.9

    申请日:2022-09-27

    Abstract: 本发明公开了一种基于概率有监督总变化空间学习的语种识别方法,解决了传统i‑vector语种识别系统先验信息利用不充分的问题。在训练阶段,利用开发集移位差分倒谱(SDC)特征训练通用背景模型(UBM),再将数据集中每段语音的SDC特征作为输入,在UBM上进行自适应得到每段语音的GMM均值超矢量;然后将开发集均值超矢量和类别标签作为模型输入,建立基于概率有监督总变化空间学习的语种识别模型。在识别阶段,分别得到开发集、注册集、测试集中全部语音在概率有监督总变化空间上的i‑vector特征,然后利用线性判别分析(LDA)进行降维,最后利用概率线性判别分析(PLDA)分类器进行评分。该方法能够充分利用先验信息,以此提高系统性能。本发明可以应用于语种识别领域。

    基于概率有监督总变化空间学习的语种识别方法

    公开(公告)号:CN115762473A

    公开(公告)日:2023-03-07

    申请号:CN202211186809.9

    申请日:2022-09-27

    Abstract: 本发明公开了一种基于概率有监督总变化空间学习的语种识别方法,解决了传统i‑vector语种识别系统先验信息利用不充分的问题。在训练阶段,利用开发集移位差分倒谱(SDC)特征训练通用背景模型(UBM),再将数据集中每段语音的SDC特征作为输入,在UBM上进行自适应得到每段语音的GMM均值超矢量;然后将开发集均值超矢量和类别标签作为模型输入,建立基于概率有监督总变化空间学习的语种识别模型。在识别阶段,分别得到开发集、注册集、测试集中全部语音在概率有监督总变化空间上的i‑vector特征,然后利用线性判别分析(LDA)进行降维,最后利用概率线性判别分析(PLDA)分类器进行评分。该方法能够充分利用先验信息,以此提高系统性能。本发明可以应用于语种识别领域。

    基于调整余弦互信息估计的语种识别方法

    公开(公告)号:CN114639372A

    公开(公告)日:2022-06-17

    申请号:CN202210221484.7

    申请日:2022-03-07

    Abstract: 本发明公开了一种基于调整余弦互信息估计的语种识别方法,解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding(嵌入特征)区分能力不强的问题。在训练阶段,先将训练集的声学特征做预处理,输入TDNN‑F网络;然后将网络中输出的embeddings根据半困难负样本挖掘策略,选择出正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练。在识别阶段,先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings;然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化;最后使用逻辑回归(LR)分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。

Patent Agency Ranking