印刷体阿拉伯字符集文本切分方法

    公开(公告)号:CN1332348C

    公开(公告)日:2007-08-15

    申请号:CN200510086478.1

    申请日:2005-09-23

    Applicant: 清华大学

    Abstract: 印刷体阿拉伯字符集文本切分方法属于光学字符识别中的字符切分领域。本发明特征在于:在字符块分类的基础上,选择部分字符块水平投影分割文本图像成子区域,然后检测多行子区域归并字符块实现多行子区域的文字行切分;随后估计文字行的基线和顶线位置,并把文字行切分成联体字符段;最后根据字符切点的特点寻找在基线上、基线上方及基线下方的切点,并且利用结构规则删除过切分点。本发明在多字体多字号印刷体阿拉伯文本测试集上的字符切分正确率达到99%以上。

    用抑制剂在曝气生物滤池中实现短程硝化的方法

    公开(公告)号:CN1911833A

    公开(公告)日:2007-02-14

    申请号:CN200610112776.8

    申请日:2006-09-01

    Applicant: 清华大学

    CPC classification number: Y02W10/15

    Abstract: 本发明涉及用抑制剂在曝气生物滤池中实现短程硝化的方法,属于环境工程污水处理领域。所述方法是用NaClO3作为抑制剂,选择性抑制硝酸菌而保留部分亚硝酸菌,直至其占据反应器内优势地位形成短程硝化;首先将活性污泥接种于曝气生物滤池中,闷曝3~5天后进水,进水的氨氮浓度控制在30~80mg/L之间,水力停留时间为1.5~2.5小时,所述空气与水的比例为4∶1,使其达到全程硝化,在进水中添加NaClO3至10-20mmol/L,运行7-14天或14天以上,直至短程硝化的形成。由于本方法使用化学抑制剂来实现短程硝化,无需使用苛刻的环境条件来控制反应进程,对氨氮的浓度没有较高要求,且以曝气生物滤池为反应载体,提高了短程硝化的反应速率。

    多字体多字号印刷体藏文字符识别方法

    公开(公告)号:CN1570958A

    公开(公告)日:2005-01-26

    申请号:CN200410034107.4

    申请日:2004-04-23

    Applicant: 清华大学

    Abstract: 多字体多字号印刷体藏文字符识别方法属于字符识别领域,其特征在于,提出了针对属于非方块字的印刷体藏文字符特点的归一化方案:将字符图像以基线,即上平线,为分界点分解成互不交叠的两个子图像,对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法;提取能充分反映藏文字符组成信息的四方向线素特征,利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的粗、细两级分类策略进行字符类别的判决,粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF。本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83%,对实际文本的识别率也可达99%以上。

    印刷体蒙古文字符识别方法

    公开(公告)号:CN100440250C

    公开(公告)日:2008-12-03

    申请号:CN200710064295.9

    申请日:2007-03-09

    Applicant: 清华大学

    Abstract: 印刷体蒙古文字符识别方法属于字符识别领域,其特征在于,提取蒙古文字符集中字符独特的字符形式信息和字符区域信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)进行特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器实现分类判决。本发明在多字体多字号印刷体蒙古文字符测试集上的识别正确率达到99.35%。

    用抑制剂在曝气生物滤池中实现短程硝化的方法

    公开(公告)号:CN100395198C

    公开(公告)日:2008-06-18

    申请号:CN200610112776.8

    申请日:2006-09-01

    Applicant: 清华大学

    CPC classification number: Y02W10/15

    Abstract: 本发明涉及用抑制剂在曝气生物滤池中实现短程硝化的方法,属于环境工程污水处理领域。所述方法是用NaClO3作为抑制剂,选择性抑制硝酸菌而保留部分亚硝酸菌,直至其占据反应器内优势地位形成短程硝化;首先将活性污泥接种于曝气生物滤池中,闷曝3~5天后进水,进水的氨氮浓度控制在30~80mg/L之间,水力停留时间为1.5~2.5小时,所述空气与水的比例为4∶1,使其达到全程硝化,在进水中添加NaClO3至10-20mmol/L,运行7-14天或14天以上,直至短程硝化的形成。由于本方法使用化学抑制剂来实现短程硝化,无需使用苛刻的环境条件来控制反应进程,对氨氮的浓度没有较高要求,且以曝气生物滤池为反应载体,提高了短程硝化的反应速率。

    印刷体蒙古文字符识别方法

    公开(公告)号:CN101017533A

    公开(公告)日:2007-08-15

    申请号:CN200710064295.9

    申请日:2007-03-09

    Applicant: 清华大学

    Abstract: 印刷体蒙古文字符识别方法属于字符识别领域,其特征在于,提取蒙古文字符集中字符独特的字符形式信息和字符区域信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)进行特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器实现分类判决。本发明在多字体多字号印刷体蒙古文字符测试集上的识别正确率达到99.35%。

    基于阿拉伯字符集的印刷体字符识别方法

    公开(公告)号:CN1266643C

    公开(公告)日:2006-07-26

    申请号:CN200410009785.5

    申请日:2004-11-12

    Applicant: 清华大学

    Abstract: 基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域,其特征在于,提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)和K-L变换相结合的特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。本发明在多字体多字号维吾尔、哈萨克、柯尔克孜和阿拉伯印刷体字符测试集上的识别正确率均达到99.4%以上。

    基于阿拉伯字符集的印刷体字符识别方法

    公开(公告)号:CN1606028A

    公开(公告)日:2005-04-13

    申请号:CN200410009785.5

    申请日:2004-11-12

    Applicant: 清华大学

    Abstract: 基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域,其特征在于,提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)和K-L变换相结合的特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。本发明在多字体多字号维吾尔、哈萨克、柯尔克孜和阿拉伯印刷体字符测试集上的识别正确率均达到99.4%以上。

Patent Agency Ranking