基于时空注意力机制的视觉语言识别方法和相关设备
摘要:
本申请提供一种基于时空注意力机制的视觉语言识别方法和相关设备。所述方法包括:获取待识别视频;根据所述待识别视频,得到唇部图像序列;计算所述唇部图像序列的时空注意力,根据所述时空注意力,得到特征向量;对所述特征向量进行序列建模,得到解空间;对所述解空间进行搜索,最终得到所述待识别视频对应的语言文字。
0/0