基于音视频双模态的语音识别方法及系统

    公开(公告)号:CN114974215B

    公开(公告)日:2025-04-11

    申请号:CN202210515512.6

    申请日:2022-05-11

    Applicant: 安徽大学

    Inventor: 赵鹏 唐宝威 韩莉

    Abstract: 本发明涉及语音技术领域,公开了一种基于音视频双模态的语音识别方法及系统,方法包括获取待处理的音频数据和视频数据;对音频数据进行特征提取,得到音频特征;采用3D和2D卷积网络对视频数据进行特征提取,得到视频特征;采用基于Transformer的双向信息交互的编码器,对音频特征和视频特征进行编码;采用基于Transformer的音视频解码器,预测出当前时间步的字符的状态码,获得音视频对应的预测状态序列;将状态序列一一映射为文本,得到文本信息。该方法不仅有效且鲁棒,且可满足用户嘈杂环境下的语音识别需求,提高语音识别结果准确度,增强用户体验。

    基于音视频双模态的语音识别方法及系统

    公开(公告)号:CN114974215A

    公开(公告)日:2022-08-30

    申请号:CN202210515512.6

    申请日:2022-05-11

    Applicant: 安徽大学

    Inventor: 赵鹏 唐宝威 韩莉

    Abstract: 本发明涉及语音技术领域,公开了一种基于音视频双模态的语音识别方法及系统,方法包括获取待处理的音频数据和视频数据;对音频数据进行特征提取,得到音频特征;采用3D和2D卷积网络对视频数据进行特征提取,得到视频特征;采用基于Transformer的双向信息交互的编码器,对音频特征和视频特征进行编码;采用基于Transformer的音视频解码器,预测出当前时间步的字符的状态码,获得音视频对应的预测状态序列;将状态序列一一映射为文本,得到文本信息。该方法不仅有效且鲁棒,且可满足用户嘈杂环境下的语音识别需求,提高语音识别结果准确度,增强用户体验。

Patent Agency Ranking