- 专利标题: 基于时空注意力机制的视觉语言识别方法和相关设备
-
申请号: CN202210033773.4申请日: 2022-01-12
-
公开(公告)号: CN114581811B公开(公告)日: 2023-04-18
- 发明人: 谢东亮 , 孙保胜
- 申请人: 北京云辰信通科技有限公司
- 申请人地址: 北京市海淀区大钟寺东路9号1幢B座1层119-152
- 专利权人: 北京云辰信通科技有限公司
- 当前专利权人: 北京云辰信通科技有限公司
- 当前专利权人地址: 北京市海淀区大钟寺东路9号1幢B座1层119-152
- 代理机构: 北京风雅颂专利代理有限公司
- 代理商 安凯
- 主分类号: G06V20/40
- IPC分类号: G06V20/40 ; G06V10/82 ; G06N3/0464 ; G06N3/08 ; G06V30/148 ; G06V40/20 ; G06V10/764
摘要:
本申请提供一种基于时空注意力机制的视觉语言识别方法和相关设备。所述方法包括:获取待识别视频;根据所述待识别视频,得到唇部图像序列;计算所述唇部图像序列的时空注意力,根据所述时空注意力,得到特征向量;对所述特征向量进行序列建模,得到解空间;对所述解空间进行搜索,最终得到所述待识别视频对应的语言文字。
公开/授权文献
- CN114581811A 基于时空注意力机制的视觉语言识别方法和相关设备 公开/授权日:2022-06-03