-
公开(公告)号:CN113611285B
公开(公告)日:2023-11-24
申请号:CN202111032721.7
申请日:2021-09-03
Applicant: 哈尔滨理工大学
Abstract: 本发明提出了一种基于层叠双向时序池化的语种识别方法,属于语种分类领域。本发明首先提取训练集和验证集音频文件的梅尔频率倒谱系数与基音参数,并切分成长度相同的片段,利用训练集段级特征训练残差‑双向长短时记忆神经网络,然后使用训练好的神经网络提取训练数据的高级时序特征,将高级时序特征进行非线性变换后,再对非线性特征进行双向时序池化。本发明可高效、准确地编码神经网络的隐藏层序列,从而获取音频的高阶动态信息,降低语种识别系统的错误率。
-
公开(公告)号:CN114639372B
公开(公告)日:2024-10-25
申请号:CN202210221484.7
申请日:2022-03-07
Applicant: 哈尔滨理工大学
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L21/0216 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/45
Abstract: 本发明公开了一种基于调整余弦互信息估计的语种识别方法,解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding(嵌入特征)区分能力不强的问题。在训练阶段,先将训练集的声学特征做预处理,输入TDNN‑F网络;然后将网络中输出的embeddings根据半困难负样本挖掘策略,选择出正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练。在识别阶段,先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings;然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化;最后使用逻辑回归(LR)分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。
-
公开(公告)号:CN113611285A
公开(公告)日:2021-11-05
申请号:CN202111032721.7
申请日:2021-09-03
Applicant: 哈尔滨理工大学
Abstract: 本发明提出了一种基于层叠双向时序池化的语种识别方法,属于语种分类领域。本发明首先提取训练集和验证集音频文件的梅尔频率倒谱系数与基音参数,并切分成长度相同的片段,利用训练集段级特征训练残差‑双向长短时记忆神经网络,然后使用训练好的神经网络提取训练数据的高级时序特征,将高级时序特征进行非线性变换后,再对非线性特征进行双向时序池化。本发明可高效、准确地编码神经网络的隐藏层序列,从而获取音频的高阶动态信息,降低语种识别系统的错误率。
-
公开(公告)号:CN114639372A
公开(公告)日:2022-06-17
申请号:CN202210221484.7
申请日:2022-03-07
Applicant: 哈尔滨理工大学
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L21/0216 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/45
Abstract: 本发明公开了一种基于调整余弦互信息估计的语种识别方法,解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding(嵌入特征)区分能力不强的问题。在训练阶段,先将训练集的声学特征做预处理,输入TDNN‑F网络;然后将网络中输出的embeddings根据半困难负样本挖掘策略,选择出正负样本对进行基于调整余弦相似度的互信息估计,并以此作为目标函数进行网络训练。在识别阶段,先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings;然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化;最后使用逻辑回归(LR)分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。
-
-
-