-
公开(公告)号:CN114974215B
公开(公告)日:2025-04-11
申请号:CN202210515512.6
申请日:2022-05-11
Applicant: 安徽大学
IPC: G10L15/02 , G10L15/26 , G10L15/06 , G10L15/16 , G10L25/03 , G10L25/24 , G10L25/57 , G10L25/30 , G06V40/16 , G06V20/40 , G06N3/045 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及语音技术领域,公开了一种基于音视频双模态的语音识别方法及系统,方法包括获取待处理的音频数据和视频数据;对音频数据进行特征提取,得到音频特征;采用3D和2D卷积网络对视频数据进行特征提取,得到视频特征;采用基于Transformer的双向信息交互的编码器,对音频特征和视频特征进行编码;采用基于Transformer的音视频解码器,预测出当前时间步的字符的状态码,获得音视频对应的预测状态序列;将状态序列一一映射为文本,得到文本信息。该方法不仅有效且鲁棒,且可满足用户嘈杂环境下的语音识别需求,提高语音识别结果准确度,增强用户体验。
-
公开(公告)号:CN114974215A
公开(公告)日:2022-08-30
申请号:CN202210515512.6
申请日:2022-05-11
Applicant: 安徽大学
IPC: G10L15/02 , G10L15/26 , G10L15/06 , G10L15/16 , G10L25/03 , G10L25/24 , G10L25/57 , G10L25/30 , G06V40/16 , G06V20/40 , G06N3/04 , G06N3/08
Abstract: 本发明涉及语音技术领域,公开了一种基于音视频双模态的语音识别方法及系统,方法包括获取待处理的音频数据和视频数据;对音频数据进行特征提取,得到音频特征;采用3D和2D卷积网络对视频数据进行特征提取,得到视频特征;采用基于Transformer的双向信息交互的编码器,对音频特征和视频特征进行编码;采用基于Transformer的音视频解码器,预测出当前时间步的字符的状态码,获得音视频对应的预测状态序列;将状态序列一一映射为文本,得到文本信息。该方法不仅有效且鲁棒,且可满足用户嘈杂环境下的语音识别需求,提高语音识别结果准确度,增强用户体验。
-