Patent search ap:("安徽大学") AND inv:"唐宝威" Page 1

1.

发明授权
基于音视频双模态的语音识别方法及系统有权

公开(公告)号：CN114974215B

公开(公告)日：2025-04-11

申请号：CN202210515512.6

申请日：2022-05-11

Applicant: 安徽大学

Inventor： 赵鹏 , 唐宝威 , 韩莉

IPC: G10L15/02 , G10L15/26 , G10L15/06 , G10L15/16 , G10L25/03 , G10L25/24 , G10L25/57 , G10L25/30 , G06V40/16 , G06V20/40 , G06N3/045 , G06N3/08 , G06N3/0464

Abstract: 本发明涉及语音技术领域，公开了一种基于音视频双模态的语音识别方法及系统，方法包括获取待处理的音频数据和视频数据；对音频数据进行特征提取，得到音频特征；采用3D和2D卷积网络对视频数据进行特征提取，得到视频特征；采用基于Transformer的双向信息交互的编码器，对音频特征和视频特征进行编码；采用基于Transformer的音视频解码器，预测出当前时间步的字符的状态码，获得音视频对应的预测状态序列；将状态序列一一映射为文本，得到文本信息。该方法不仅有效且鲁棒，且可满足用户嘈杂环境下的语音识别需求，提高语音识别结果准确度，增强用户体验。

2.

发明公开
基于音视频双模态的语音识别方法及系统有权

公开(公告)号：CN114974215A

公开(公告)日：2022-08-30

申请号：CN202210515512.6

申请日：2022-05-11

Applicant: 安徽大学

Inventor： 赵鹏 , 唐宝威 , 韩莉

IPC: G10L15/02 , G10L15/26 , G10L15/06 , G10L15/16 , G10L25/03 , G10L25/24 , G10L25/57 , G10L25/30 , G06V40/16 , G06V20/40 , G06N3/04 , G06N3/08

Abstract: 本发明涉及语音技术领域，公开了一种基于音视频双模态的语音识别方法及系统，方法包括获取待处理的音频数据和视频数据；对音频数据进行特征提取，得到音频特征；采用3D和2D卷积网络对视频数据进行特征提取，得到视频特征；采用基于Transformer的双向信息交互的编码器，对音频特征和视频特征进行编码；采用基于Transformer的音视频解码器，预测出当前时间步的字符的状态码，获得音视频对应的预测状态序列；将状态序列一一映射为文本，得到文本信息。该方法不仅有效且鲁棒，且可满足用户嘈杂环境下的语音识别需求，提高语音识别结果准确度，增强用户体验。

Patent Agency Ranking