-
公开(公告)号:CN112926372B
公开(公告)日:2023-03-10
申请号:CN202010853196.4
申请日:2020-08-22
IPC: G06V20/62 , G06V10/82 , G06V10/80 , G06V10/766 , G06N3/0464 , G06N3/0455 , G06N3/045 , G06N3/044 , G06N3/048 , G06N3/084 , G06N3/09
Abstract: 本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
-
公开(公告)号:CN112215223B
公开(公告)日:2024-03-19
申请号:CN202011107999.1
申请日:2020-10-16
IPC: G06V20/62 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多元注意力机制的多方向场景文字识别方法及系统,所述方法包括:由特征提取器对从外接的文字检测模块输出的文本行/列图像I进行归一化处理,利用深层卷积神经网络对经归一化的图像提取特征,得到原始特征图F0,在原始特征图F0上叠加二维方向位置编码P输出多通道特征图F;由编码器将从特征提取器输出的多通道特征图F转换为隐含表示H;由解码器将从编码器输出的隐含表示H转换为识别文本作为输出结果。本发明提供的多方向场景文字识别方法及系统,适用于识别场景图像中的横排、竖排多种方向以及弯曲文本行,具有较强的适用性。
-
公开(公告)号:CN112926372A
公开(公告)日:2021-06-08
申请号:CN202010853196.4
申请日:2020-08-22
Abstract: 本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
-
公开(公告)号:CN112215223A
公开(公告)日:2021-01-12
申请号:CN202011107999.1
申请日:2020-10-16
Abstract: 本发明公开了一种基于多元注意力机制的多方向场景文字识别方法及系统,所述方法包括:由特征提取器对从外接的文字检测模块输出的文本行/列图像I进行归一化处理,利用深层卷积神经网络对经归一化的图像提取特征,得到原始特征图F0,在原始特征图F0上叠加二维方向位置编码P输出多通道特征图F;由编码器将从特征提取器输出的多通道特征图F转换为隐含表示H;由解码器将从编码器输出的隐含表示H转换为识别文本作为输出结果。本发明提供的多方向场景文字识别方法及系统,适用于识别场景图像中的横排、竖排多种方向以及弯曲文本行,具有较强的适用性。
-
公开(公告)号:CN115050032B
公开(公告)日:2024-07-16
申请号:CN202210477095.0
申请日:2022-05-02
Applicant: 清华大学
IPC: G06V30/19 , G06V30/41 , G06V10/82 , G06V10/774 , G06N3/09
Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。
-
公开(公告)号:CN115050032A
公开(公告)日:2022-09-13
申请号:CN202210477095.0
申请日:2022-05-02
Applicant: 清华大学
Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。
-
公开(公告)号:CN117373010A
公开(公告)日:2024-01-09
申请号:CN202311329890.6
申请日:2023-10-15
Applicant: 清华大学
IPC: G06V20/62 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了基于深度表征学习的车牌图像识别方法及系统,该方法,包括获取车牌图像样本数据送入车牌识别模型;其中,车牌识别模型,包括图像校正模块、特征提取模块、编码器和解码器;利用图像校正模块对车牌图像进行图像校正得到校正图像,并利用特征提取模块对校正图像进行特征提取得到最终特征图;将最终特征图输入至编码器得到隐含表征序列,并利用解码器对隐含表征序列进行解码得到车牌识别结果。本发明适用于识别开放场景中动态获取的车牌图像,可提高低质量车牌图像识别性能。
-
-
-
-
-
-