-
公开(公告)号:CN112509564A
公开(公告)日:2021-03-16
申请号:CN202011101902.6
申请日:2020-10-15
Applicant: 江苏南大电子信息技术股份有限公司 , 东南大学—无锡集成电路技术研究所
IPC: G10L15/08 , G10L15/183 , G10L15/06 , G10L15/02
Abstract: 本发明公开了一种基于连接时序分类和自注意力机制的端到端语音识别方法,使用连接时序分类CTC和自注意力机制SA混合机制对英文单词或汉字直接进行建模,无需前处理或后处理,输出结果直接对应正确的英文序列或汉字序列。该方法共享同一个编码器网络,编码器的输出使用CTC训练准则,同时编码器的输出也作为解码器的输入,实现编码器与解码器之间的注意力关系,解码器使用交叉熵训练准则进行训练,最后以加权的方式赋予两种训练准则分配不同的权重。本发明不仅可以加快模型的收敛速度,获得更加准确的对齐属性,还可以获取输入之间的内部联系,提升语音识别系统的准确率及鲁棒性。
-
公开(公告)号:CN112509564B
公开(公告)日:2024-04-02
申请号:CN202011101902.6
申请日:2020-10-15
Applicant: 江苏南大电子信息技术股份有限公司 , 东南大学—无锡集成电路技术研究所
IPC: G10L15/08 , G10L15/183 , G10L15/06 , G10L15/02
Abstract: 本发明公开了一种基于连接时序分类和自注意力机制的端到端语音识别方法,使用连接时序分类CTC和自注意力机制SA混合机制对英文单词或汉字直接进行建模,无需前处理或后处理,输出结果直接对应正确的英文序列或汉字序列。该方法共享同一个编码器网络,编码器的输出使用CTC训练准则,同时编码器的输出也作为解码器的输入,实现编码器与解码器之间的注意力关系,解码器使用交叉熵训练准则进行训练,最后以加权的方式赋予两种训练准则分配不同的权重。本发明不仅可以加快模型的收敛速度,获得更加准确的对齐属性,还可以获取输入之间的内部联系,提升语音识别系统的准确率及鲁棒性。
-