-
公开(公告)号:CN115019801A
公开(公告)日:2022-09-06
申请号:CN202210616528.6
申请日:2022-06-01
Applicant: 中国民用航空飞行学院
Abstract: 本发明提供基于ResNet‑GAU模型的PCVCs端到端语音识别方法,属于语音识别技术领域,包括:采用ResNet提取待识别的语音信号的时频域特征;通过多个串联的GAUmodule,捕捉时频域特征的词序信息;将词序信息传入Denselayer,在特征空间上进行线性变化后通过softmax层获得最终的分类预测概率。其中,本发明中的ResNet利用CNN的平移不变性和局部相关性提取语音信号的时频域信息;GAU利用门控的单头注意力机制不仅能更好地捕获序列长距离依赖关系来获得更大的感受野和上下文信息,同时也拥有更快的训练收敛速度;CTC利用引入blank和产生重复token解决了语音信号和文本标签硬对齐的问题。
-
公开(公告)号:CN115019801B
公开(公告)日:2024-12-06
申请号:CN202210616528.6
申请日:2022-06-01
Applicant: 中国民用航空飞行学院
Abstract: 本发明提供基于ResNet‑GAU模型的PCVCs端到端语音识别方法,属于语音识别技术领域,包括:采用ResNet提取待识别的语音信号的时频域特征;通过多个串联的GAUmodule,捕捉时频域特征的词序信息;将词序信息传入Denselayer,在特征空间上进行线性变化后通过softmax层获得最终的分类预测概率。其中,本发明中的ResNet利用CNN的平移不变性和局部相关性提取语音信号的时频域信息;GAU利用门控的单头注意力机制不仅能更好地捕获序列长距离依赖关系来获得更大的感受野和上下文信息,同时也拥有更快的训练收敛速度;CTC利用引入blank和产生重复token解决了语音信号和文本标签硬对齐的问题。
-