-
公开(公告)号:CN112926372B
公开(公告)日:2023-03-10
申请号:CN202010853196.4
申请日:2020-08-22
IPC: G06V20/62 , G06V10/82 , G06V10/80 , G06V10/766 , G06N3/0464 , G06N3/0455 , G06N3/045 , G06N3/044 , G06N3/048 , G06N3/084 , G06N3/09
Abstract: 本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
-
公开(公告)号:CN112215223B
公开(公告)日:2024-03-19
申请号:CN202011107999.1
申请日:2020-10-16
IPC: G06V20/62 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多元注意力机制的多方向场景文字识别方法及系统,所述方法包括:由特征提取器对从外接的文字检测模块输出的文本行/列图像I进行归一化处理,利用深层卷积神经网络对经归一化的图像提取特征,得到原始特征图F0,在原始特征图F0上叠加二维方向位置编码P输出多通道特征图F;由编码器将从特征提取器输出的多通道特征图F转换为隐含表示H;由解码器将从编码器输出的隐含表示H转换为识别文本作为输出结果。本发明提供的多方向场景文字识别方法及系统,适用于识别场景图像中的横排、竖排多种方向以及弯曲文本行,具有较强的适用性。
-
公开(公告)号:CN112926372A
公开(公告)日:2021-06-08
申请号:CN202010853196.4
申请日:2020-08-22
Abstract: 本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
-
公开(公告)号:CN112215223A
公开(公告)日:2021-01-12
申请号:CN202011107999.1
申请日:2020-10-16
Abstract: 本发明公开了一种基于多元注意力机制的多方向场景文字识别方法及系统,所述方法包括:由特征提取器对从外接的文字检测模块输出的文本行/列图像I进行归一化处理,利用深层卷积神经网络对经归一化的图像提取特征,得到原始特征图F0,在原始特征图F0上叠加二维方向位置编码P输出多通道特征图F;由编码器将从特征提取器输出的多通道特征图F转换为隐含表示H;由解码器将从编码器输出的隐含表示H转换为识别文本作为输出结果。本发明提供的多方向场景文字识别方法及系统,适用于识别场景图像中的横排、竖排多种方向以及弯曲文本行,具有较强的适用性。
-
公开(公告)号:CN115050032B
公开(公告)日:2024-07-16
申请号:CN202210477095.0
申请日:2022-05-02
Applicant: 清华大学
IPC: G06V30/19 , G06V30/41 , G06V10/82 , G06V10/774 , G06N3/09
Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。
-
公开(公告)号:CN113762241A
公开(公告)日:2021-12-07
申请号:CN202111028327.6
申请日:2021-09-02
Applicant: 清华大学
Abstract: 本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括:获取样本图像;将样本图像输入场景文字识别模型,得到样本图像对应的预测文字和文字几何形状信息的预测特征图;根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图,计算总损失函数,并利用总损失函数最小化调整场景文字识别模型的参数,得到满足收敛条件的场景文字识别模型;其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。
-
公开(公告)号:CN115050032A
公开(公告)日:2022-09-13
申请号:CN202210477095.0
申请日:2022-05-02
Applicant: 清华大学
Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。
-
公开(公告)号:CN107679585A
公开(公告)日:2018-02-09
申请号:CN201710889188.3
申请日:2017-09-27
Applicant: 清华大学
CPC classification number: G06K9/6821 , G06N3/049 , G06N3/08
Abstract: 本发明提供一种基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,所述方法包括:S1、在长短时记忆LSTM网络中每一LSTM单元中添加时间残差连接,以构造时间残差LSTM网络,所述时间残差连接用于将所述LSTM单元前一时刻的输出加权叠加到所述LSTM单元当前时刻的输出上;S2、基于训练后的所述时间残差LSTM网络,对输入的阿拉伯文图像序列进行识别。本发明提供的基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,通过在时间维度上将残差学习的思想与LSTM相结合,将LSTM网络上一时刻的输出加权叠加到当前输出上,形成时间残差LSTM网络,从而使得较深的神经网络易于训练,提高了阿拉伯文的识别率。
-
-
-
-
-
-
-