-
公开(公告)号:CN117523571A
公开(公告)日:2024-02-06
申请号:CN202311298617.1
申请日:2023-10-09
Applicant: 中国科学院信息工程研究所
IPC: G06V30/14 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于对比学习特征增强的场景文字检测方法及装置,该方法包括:构建训练图片集和场景文字检测模型;基于场景文字检测模型对训练图片进行文字检测,并结合标签图,获得文字检测损失;抽取特征融合模块输出的视觉特征图,并基于文字特性进行微调后,结合标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失;根据文字检测损失和对比学习损失进行反向传播,得到训练后的场景文字检测模型;基于训练后的场景文字检测模型获取待检测图片的预测概率图后进行后处理,得到待检测图片中的文字位置。本发明可以在保证推理速度的同时提升检测效果,提高检测精度。