-
公开(公告)号:CN116863456B
公开(公告)日:2024-03-22
申请号:CN202310626483.5
申请日:2023-05-30
Applicant: 中国科学院自动化研究所
IPC: G06V20/62 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/082
Abstract: 本申请实施例提供一种视频文本识别方法、装置及存储介质。该方法包括:获取待处理的视频图像;利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合,获得编码输出特征;基于所述编码输出特征利用自注意力机制确定文本识别结果。本申请实施例提供的视频文本识别方法、装置及存储介质,利用可变形自注意力机制将高分辨率特征图与低分辨率特征图的融合,实现了对小目标的检测和识别,提高了视频文本识别的准确性。
-
公开(公告)号:CN116863456A
公开(公告)日:2023-10-10
申请号:CN202310626483.5
申请日:2023-05-30
Applicant: 中国科学院自动化研究所
IPC: G06V20/62 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/082
Abstract: 本申请实施例提供一种视频文本识别方法、装置及存储介质。该方法包括:获取待处理的视频图像;利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合,获得编码输出特征;基于所述编码输出特征利用自注意力机制确定文本识别结果。本申请实施例提供的视频文本识别方法、装置及存储介质,利用可变形自注意力机制将高分辨率特征图与低分辨率特征图的融合,实现了对小目标的检测和识别,提高了视频文本识别的准确性。
-