复杂背景图像中鲁棒的眼睛精确定位方法

    公开(公告)号:CN1731418A

    公开(公告)日:2006-02-08

    申请号:CN200510086249.X

    申请日:2005-08-19

    Applicant: 清华大学

    Abstract: 复杂背景下的眼睛精确定位技术属于人脸识别领域。其特征在于,提出了一种性能鲁棒的复杂背景下图像中的眼睛精确定位方法。它采用高效率和高冗余度的微结构特征来表达眼睛模式局部和全局区域的灰度分布特点;并采用AdaBoost算法从中选择出最具有区分的微结构特征构成强分类器,综合考虑了局部特征以及能够表达这种约束关系的全局特征得到更鲁棒的定位效果。从而以更简单的结构实现复杂背景图像下更高性能的双眼定位;在多个公开数据库上以及竞赛评测的结果证明了本发明的优异性能。

    复杂背景图像中的鲁棒人脸检测方法

    公开(公告)号:CN1731417A

    公开(公告)日:2006-02-08

    申请号:CN200510086248.5

    申请日:2005-08-19

    Applicant: 清华大学

    Abstract: 复杂背景下的人脸检测技术属于人脸识别领域。其特征在于,提出了一种性能鲁棒的复杂背景下图像中的人脸检测方法。它采用高效率和高冗余度的微结构特征来表达人脸模式中眼睛、嘴巴等区域的灰度分布特点;并采用风险敏感的AdaBoost算法从中选择出最具有区分人脸和非人脸的微结构特征构成强分类器,使训练得到的每一层分类器在保证对人脸类别极低的拒识率的情况下,尽可能降低非人脸样本的误接受率,从而以更简单的结构实现复杂背景图像下更高性能的人脸检测;另外还使用了后处理算法进一步降低误检率。在多个公开数据库上以及竞赛评测的结果证明了本发明的优异性能。

    基于统计结构特征的联机手写汉字识别方法

    公开(公告)号:CN1664846A

    公开(公告)日:2005-09-07

    申请号:CN200510011510.X

    申请日:2005-04-01

    Applicant: 清华大学

    Abstract: 基于统计结构特征的联机手写汉字识别方法,属于汉字识别技术领域,其特征在于:先对处理的字符对象进行预处理,以消除噪声干扰,消除部分书写变形并把待识汉字所占空间映射到一个固定大小的位置;提取包括方向特征和边缘特征在内的能很好反映联机手写汉字特征在内的统计结构特征,再把得到的这些原始特征使用线性鉴别分析方法压缩变换为识别特征;最后采用改进了的高斯二次分类器模型完成训练和识别,该模型用一个事先设定的常数值代替较小的特征值以消除较小的特征值估计不准确对分类性能的不利影响。本发明的平均识别率为98.43%,取得令人满意的效果。

    基于单个字符的统计笔迹鉴别和验证方法

    公开(公告)号:CN1482571A

    公开(公告)日:2004-03-17

    申请号:CN03109813.4

    申请日:2003-04-11

    Applicant: 清华大学

    Abstract: 基于单个字符的统计笔迹鉴别和验证方法属于笔迹鉴别领域。其特征在于,它在对处理字符笔迹对象进行必要预处理后,先提取能很好反映汉字特点的四方向线素特征,再在此基础上,采用下述两种方法之一去选取反映不同书写者差异的最优鉴别特征,其中一种方法是采用直接LDA(线性鉴别分析)变换提取最具鉴别性的特征,另一种方法是先用PCA(主分量分析)变换降维得到最有效的特征,然后用LDA变换提取最具鉴别性的最优鉴别特征。采用欧氏距离分类器进行分类鉴别。本发明的平均鉴别正确率可达92.69%。

    一种基于特征对齐和熵正则化的域适应文本图像识别方法

    公开(公告)号:CN115050032A

    公开(公告)日:2022-09-13

    申请号:CN202210477095.0

    申请日:2022-05-02

    Applicant: 清华大学

    Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。

    基于物体检测网络的英文字符切分方法及装置

    公开(公告)号:CN108921152B

    公开(公告)日:2020-11-06

    申请号:CN201810701151.8

    申请日:2018-06-29

    Applicant: 清华大学

    Abstract: 本发明实施例公开一种基于物体检测网络的英文字符切分方法及装置,能提高图片中英文字符切分的准确度。方法包括:S1、获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;S2、将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

    基于卷积神经网络的半监督迁移学习字符识别方法及系统

    公开(公告)号:CN107909101B

    公开(公告)日:2019-07-12

    申请号:CN201711106410.4

    申请日:2017-11-10

    Applicant: 清华大学

    Abstract: 本发明提供基于卷积神经网络的半监督迁移学习字符识别方法,包括:将目标域中无类别标签的批量字符图像样本作为测试样本集输入半监督迁移学习后的卷积神经网络,识别所述测试样本集的字符图像;所述半监督迁移学习后的卷积神经网络由源域中有类别标签的批量字符图像样本、目标域中有类别标签的批量字符图像样本以及所述目标域中无类别标签的批量字符图像样本联合训练所得,提高了识别精度。本发明提供的基于卷积神经网络的半监督迁移学习字符识别方法及系统,能利用大量有类别标签的源域样本、少量有类别标签的目标域样本和较容易获得的无类别标签的目标域样本进行半监督迁移学习,提高了卷积神经网络对目标域样本的适应能力。

    基于物体检测网络的英文字符切分方法及装置

    公开(公告)号:CN108921152A

    公开(公告)日:2018-11-30

    申请号:CN201810701151.8

    申请日:2018-06-29

    Applicant: 清华大学

    Abstract: 本发明实施例公开一种基于物体检测网络的英文字符切分方法及装置,能提高图片中英文字符切分的准确度。方法包括:S1、获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;S2、将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

    基于时间残差长短时记忆网络的阿拉伯文识别方法及系统

    公开(公告)号:CN107679585A

    公开(公告)日:2018-02-09

    申请号:CN201710889188.3

    申请日:2017-09-27

    Applicant: 清华大学

    CPC classification number: G06K9/6821 G06N3/049 G06N3/08

    Abstract: 本发明提供一种基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,所述方法包括:S1、在长短时记忆LSTM网络中每一LSTM单元中添加时间残差连接,以构造时间残差LSTM网络,所述时间残差连接用于将所述LSTM单元前一时刻的输出加权叠加到所述LSTM单元当前时刻的输出上;S2、基于训练后的所述时间残差LSTM网络,对输入的阿拉伯文图像序列进行识别。本发明提供的基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,通过在时间维度上将残差学习的思想与LSTM相结合,将LSTM网络上一时刻的输出加权叠加到当前输出上,形成时间残差LSTM网络,从而使得较深的神经网络易于训练,提高了阿拉伯文的识别率。

    基于多文种文档图像识别的跨文种理解方法

    公开(公告)号:CN102609408B

    公开(公告)日:2014-11-26

    申请号:CN201210007729.2

    申请日:2012-01-11

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于多文种文档图像识别的跨文种理解方法,包括以下步骤:获取源文种的文档扫描图像,通过多文种文档图像识别途径对所述文档扫描图像进行处理,以得到源文种识别文本;对所述源文种识别文本进行分句处理;利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换,获得目标文种文本;对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。本发明能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示,为用户提供了各文种、各民族文字信息的获取、保存、交流与转换功能,便于用户实现跨文种的文档理解。

Patent Agency Ranking