-
公开(公告)号:CN119904849A
公开(公告)日:2025-04-29
申请号:CN202311413494.1
申请日:2023-10-26
Applicant: 北京航空航天大学杭州创新研究院
Abstract: 本公开的实施例公开了场景文本信息识别方法、装置、电子设备和介质。该方法的一具体实施方式包括:对待识别场景图像进行预处理,并对预处理后的场景图像进行区域图像分割,得到场景子图像集;对场景子图像集进行视觉编码,以及对编码得到的视觉特征向量集进行前景增强处理,得到视觉增强特征向量集;对视觉增强特征向量集进行文本识别,并对识别得到的文本特征向量集进行文本矫正处理,得到矫正后文本特征向量集;将矫正后文本特征向量集与视觉特征向量集进行融合处理,得到融合后特征向量集;将融合后特征向量集输入至预测层,得到文本信息。该实施方式可以提高复杂场景下的文本识别准确率,以及模型的通用性和鲁棒性。