-
公开(公告)号:CN113611285B
公开(公告)日:2023-11-24
申请号:CN202111032721.7
申请日:2021-09-03
Applicant: 哈尔滨理工大学
Abstract: 本发明提出了一种基于层叠双向时序池化的语种识别方法,属于语种分类领域。本发明首先提取训练集和验证集音频文件的梅尔频率倒谱系数与基音参数,并切分成长度相同的片段,利用训练集段级特征训练残差‑双向长短时记忆神经网络,然后使用训练好的神经网络提取训练数据的高级时序特征,将高级时序特征进行非线性变换后,再对非线性特征进行双向时序池化。本发明可高效、准确地编码神经网络的隐藏层序列,从而获取音频的高阶动态信息,降低语种识别系统的错误率。
-
公开(公告)号:CN113611285A
公开(公告)日:2021-11-05
申请号:CN202111032721.7
申请日:2021-09-03
Applicant: 哈尔滨理工大学
Abstract: 本发明提出了一种基于层叠双向时序池化的语种识别方法,属于语种分类领域。本发明首先提取训练集和验证集音频文件的梅尔频率倒谱系数与基音参数,并切分成长度相同的片段,利用训练集段级特征训练残差‑双向长短时记忆神经网络,然后使用训练好的神经网络提取训练数据的高级时序特征,将高级时序特征进行非线性变换后,再对非线性特征进行双向时序池化。本发明可高效、准确地编码神经网络的隐藏层序列,从而获取音频的高阶动态信息,降低语种识别系统的错误率。
-