印刷蒙古文文本切分方法
    12.
    发明授权

    公开(公告)号:CN100470582C

    公开(公告)日:2009-03-18

    申请号:CN200710065195.8

    申请日:2007-04-06

    Applicant: 清华大学

    Abstract: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。

    印刷体阿拉伯字符集文本切分方法

    公开(公告)号:CN1741035A

    公开(公告)日:2006-03-01

    申请号:CN200510086478.1

    申请日:2005-09-23

    Applicant: 清华大学

    Abstract: 印刷体阿拉伯字符集文本切分方法属于光学字符识别中的字符切分领域。本发明特征在于:在字符块分类的基础上,选择部分字符块水平投影分割文本图像成子区域,然后检测多行子区域归并字符块实现多行子区域的文字行切分;随后估计文字行的基线和顶线位置,并把文字行切分成联体字符段;最后根据字符切点的特点寻找在基线上、基线上方及基线下方的切点,并且利用结构规则删除过切分点。本发明在多字体多字号印刷体阿拉伯文本测试集上的字符切分正确率达到99%以上。

    印刷蒙古文文本切分方法
    15.
    发明公开

    公开(公告)号:CN101025791A

    公开(公告)日:2007-08-29

    申请号:CN200710065195.8

    申请日:2007-04-06

    Applicant: 清华大学

    Abstract: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。

    多字体多字号印刷体藏文字符识别方法

    公开(公告)号:CN1251130C

    公开(公告)日:2006-04-12

    申请号:CN200410034107.4

    申请日:2004-04-23

    Applicant: 清华大学

    Abstract: 多字体多字号印刷体藏文字符识别方法属于字符识别领域,其特征在于,提出了针对属于非方块字的印刷体藏文字符特点的归一化方案:将字符图像以基线,即上平线,为分界点分解成互不交叠的两个子图像,对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法;提取能充分反映藏文字符组成信息的四方向线素特征,利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的粗、细两级分类策略进行字符类别的判决,粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF。本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83%,对实际文本的识别率也可达99%以上。

Patent Agency Ranking