-
公开(公告)号:CN118379744A
公开(公告)日:2024-07-23
申请号:CN202410824780.5
申请日:2024-06-25
Applicant: 中国科学技术大学
IPC: G06V30/148 , G06V30/19
Abstract: 本发明公开了一种半监督场景文本识别方法、系统、设备及存储介质,它们是一一对应的方案,方案中:关注了字符形态特征,通过采用半监督学习的场景文本识别框架,同时使用简单的合成数据(有标注的图像数据)和无标注的图像数据进行训练,并且通过对文本图像字符形式进行统一化,降低了困难样本的识别难度,其次提出复杂样本在线生成策略和字符单向对齐损失,使得模型能够对具有背景噪声和复杂字符形态的文本图像提取纯净有效的字符特征,进而实现仅从简单的合成训练数据集中泛化出识别复杂文本的能力。大量的实验证明了本发明的性能优于之前的方法,能够以较少的模型参数量和较快的推理速度对困难文本图像进行准确地识别。
-
公开(公告)号:CN118379744B
公开(公告)日:2024-08-20
申请号:CN202410824780.5
申请日:2024-06-25
Applicant: 中国科学技术大学
IPC: G06V30/148 , G06V30/19
Abstract: 本发明公开了一种半监督场景文本识别方法、系统、设备及存储介质,它们是一一对应的方案,方案中:关注了字符形态特征,通过采用半监督学习的场景文本识别框架,同时使用简单的合成数据(有标注的图像数据)和无标注的图像数据进行训练,并且通过对文本图像字符形式进行统一化,降低了困难样本的识别难度,其次提出复杂样本在线生成策略和字符单向对齐损失,使得模型能够对具有背景噪声和复杂字符形态的文本图像提取纯净有效的字符特征,进而实现仅从简单的合成训练数据集中泛化出识别复杂文本的能力。大量的实验证明了本发明的性能优于之前的方法,能够以较少的模型参数量和较快的推理速度对困难文本图像进行准确地识别。
-