一种基于特征对齐和熵正则化的域适应文本图像识别方法

    公开(公告)号:CN115050032B

    公开(公告)日:2024-07-16

    申请号:CN202210477095.0

    申请日:2022-05-02

    Applicant: 清华大学

    Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。

    场景文字识别模型的训练方法与识别方法及装置

    公开(公告)号:CN113762241A

    公开(公告)日:2021-12-07

    申请号:CN202111028327.6

    申请日:2021-09-02

    Applicant: 清华大学

    Abstract: 本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括:获取样本图像;将样本图像输入场景文字识别模型,得到样本图像对应的预测文字和文字几何形状信息的预测特征图;根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图,计算总损失函数,并利用总损失函数最小化调整场景文字识别模型的参数,得到满足收敛条件的场景文字识别模型;其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。

    一种基于特征对齐和熵正则化的域适应文本图像识别方法

    公开(公告)号:CN115050032A

    公开(公告)日:2022-09-13

    申请号:CN202210477095.0

    申请日:2022-05-02

    Applicant: 清华大学

    Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。

    基于时间残差长短时记忆网络的阿拉伯文识别方法及系统

    公开(公告)号:CN107679585A

    公开(公告)日:2018-02-09

    申请号:CN201710889188.3

    申请日:2017-09-27

    Applicant: 清华大学

    CPC classification number: G06K9/6821 G06N3/049 G06N3/08

    Abstract: 本发明提供一种基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,所述方法包括:S1、在长短时记忆LSTM网络中每一LSTM单元中添加时间残差连接,以构造时间残差LSTM网络,所述时间残差连接用于将所述LSTM单元前一时刻的输出加权叠加到所述LSTM单元当前时刻的输出上;S2、基于训练后的所述时间残差LSTM网络,对输入的阿拉伯文图像序列进行识别。本发明提供的基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,通过在时间维度上将残差学习的思想与LSTM相结合,将LSTM网络上一时刻的输出加权叠加到当前输出上,形成时间残差LSTM网络,从而使得较深的神经网络易于训练,提高了阿拉伯文的识别率。

Patent Agency Ranking