Patent search ap:("中国民用航空飞行学院") AND inv:"张时雨" Page 1

1.

发明公开
基于ResNet-GAU模型的PCVCs端到端语音识别方法有权

公开(公告)号：CN115019801A

公开(公告)日：2022-09-06

申请号：CN202210616528.6

申请日：2022-06-01

Applicant: 中国民用航空飞行学院

Inventor： 梁海军 , 孔建国 , 潘卫军 , 韩琪聪 , 张时雨

IPC: G10L15/26 , G10L15/06 , G10L15/02

Abstract: 本发明提供基于ResNet‑GAU模型的PCVCs端到端语音识别方法，属于语音识别技术领域，包括：采用ResNet提取待识别的语音信号的时频域特征；通过多个串联的GAUmodule，捕捉时频域特征的词序信息；将词序信息传入Denselayer，在特征空间上进行线性变化后通过softmax层获得最终的分类预测概率。其中，本发明中的ResNet利用CNN的平移不变性和局部相关性提取语音信号的时频域信息；GAU利用门控的单头注意力机制不仅能更好地捕获序列长距离依赖关系来获得更大的感受野和上下文信息，同时也拥有更快的训练收敛速度；CTC利用引入blank和产生重复token解决了语音信号和文本标签硬对齐的问题。

2.

发明授权
基于ResNet-GAU模型的PCVCs端到端语音识别方法有权

公开(公告)号：CN115019801B

公开(公告)日：2024-12-06

申请号：CN202210616528.6

申请日：2022-06-01

Applicant: 中国民用航空飞行学院

Inventor： 梁海军 , 孔建国 , 潘卫军 , 韩琪聪 , 张时雨

IPC: G10L15/26 , G10L15/06 , G10L15/02

Abstract: 本发明提供基于ResNet‑GAU模型的PCVCs端到端语音识别方法，属于语音识别技术领域，包括：采用ResNet提取待识别的语音信号的时频域特征；通过多个串联的GAUmodule，捕捉时频域特征的词序信息；将词序信息传入Denselayer，在特征空间上进行线性变化后通过softmax层获得最终的分类预测概率。其中，本发明中的ResNet利用CNN的平移不变性和局部相关性提取语音信号的时频域信息；GAU利用门控的单头注意力机制不仅能更好地捕获序列长距离依赖关系来获得更大的感受野和上下文信息，同时也拥有更快的训练收敛速度；CTC利用引入blank和产生重复token解决了语音信号和文本标签硬对齐的问题。

Patent Agency Ranking