-
公开(公告)号:CN117152764A
公开(公告)日:2023-12-01
申请号:CN202311186744.2
申请日:2023-09-14
Applicant: 北京工商大学
IPC: G06V30/148 , G06V30/164 , G06V30/19 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本发明公布了一种基于Transformer网络模型的数字标牌图像文本识别方法,基于Transformer网络模型与场景文本识别STR技术,利用相对位置编码获取数字标牌图像的位置编码,将不同子空间的特征表达连接到编码器,从而准确识别数字标牌图像中的文本。本发明采用相对位置编码从水平、竖直两个维度上对图像特征图进行编码,可准确捕获二维图像块之间的位置信息,更好地建模图像中的文本信息,能够更加准确地识别数字标牌图像中的文本。