一种已知表格的版面自动定向和定位方法

    公开(公告)号:CN1294523C

    公开(公告)日:2007-01-10

    申请号:CN200410042984.6

    申请日:2004-06-04

    Inventor: 徐剑波

    Abstract: 本发明涉及计算机信息处理领域的模式识别技术,具体涉及一种已知表格的版面自动定向和定位方法。现有技术中,通过计算机系统对表格和票据扫描录入,需要人工干预进行版面的定向,而计算机系统无法进行自动的批量处理,效率非常低;同时由于扫描过程的扫描分辨率的不稳定性、存在污点等情况而影响表格和票据的自动录入效果。本发明所述的方法通过计算机自动提取表格线,与已知的表格线进行匹配从而判定表格的方向,并使用最小二乘法准确定位表格并计算出伸缩比例。采用本发明所述的方法,可以大大提高表格类文档以及票据的录入效率和精度。

    一种已知表格的版面自动定向和定位方法

    公开(公告)号:CN1584920A

    公开(公告)日:2005-02-23

    申请号:CN200410042984.6

    申请日:2004-06-04

    Inventor: 徐剑波

    Abstract: 本发明涉及计算机信息处理领域的模式识别技术,具体涉及一种已知表格的版面自动定向和定位方法。现有技术中,通过计算机系统对表格和票据扫描录入,需要人工干预进行版面的定向,而计算机系统无法进行自动的批量处理,效率非常低;同时由于扫描过程的扫描分辨率的不稳定性、存在污点等情况而影响表格和票据的自动录入效果。本发明所述的方法通过计算机自动提取表格线,与已知的表格线进行匹配从而判定表格的方向,并使用最小二乘法准确定位表格并计算出伸缩比例。采用本发明所述的方法,可以大大提高表格类文档以及票据的录入效率和精度。

    一种图像二值化的方法

    公开(公告)号:CN1694119A

    公开(公告)日:2005-11-09

    申请号:CN200510080050.6

    申请日:2005-06-28

    Inventor: 徐剑波 康凯

    Abstract: 本发明涉及计算机信息处理领域的图像处理技术,具体涉及一种图像二值化的方法。现有技术中,通过计算机系统对数字化的图像进行二值化方法时,处理灰度直方图为正常的双峰图像一般效果比较好,但当双峰出现明显的偏移,如图像的亮度过高时,往往导致二值化域值选择不能准确而导致二值化后的图像过浅或过深,从而影响到后面对图像的继续处理,如进行文字识别。本发明所述的方法通过对二值化图像的灰度直方图进行补偿,再使用常规的二值化域值确定方法,使二值化后的图像质量提高。采用本发明所述的方法,可以有效提高灰度直方图中双峰偏移的图像的二值化效果。

    一种基于字体预测的字符识别方法

    公开(公告)号:CN100356393C

    公开(公告)日:2007-12-19

    申请号:CN200510090879.4

    申请日:2005-08-18

    Inventor: 李鹏 康凯 徐剑波

    Abstract: 本发明公开了一种基于字体预测的字符识别方法,用来预测字体的统计参考值表包括字体索引及其对应的统计参考值,由不同类型的字体按照对应的统计参考值的顺序排列而成,统计参考值为对应的字体在所选取的统计样本中出现的次数或者频率。首先对待识别文档进行版面分析,对分析出的字符区域进行字符切分以获得单字符图像数据。然后用字体统计参考值表中统计参考值高的字体对获得的字符图像数据进行单字体识别,如果所述识别失败,则按照所述字体统计参考值表中字体的顺序用下一种字体对所述获得的字符图像数据进行单字体识别。采用字体预测方式进行字符识别可以迅速有效地确定待识别字符的字体,大大降低字符匹配范围,提高识别速度及准确性。

    一种字符识别的后处理方法

    公开(公告)号:CN100356392C

    公开(公告)日:2007-12-19

    申请号:CN200510090878.X

    申请日:2005-08-18

    Abstract: 本发明公开了一种字符识别的后处理方法,对初始识别之后的错误内容进行自动纠正处理。首先,识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度。而后,将候选字符相似度与预定阈值相比较确定被误识的字符。对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所述搜索词在已知的文本数据库中搜索,从而获得包括搜索词的词长、词频和其中各个字符相似度的测量值。最后,用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。本发明在选取候选字符时考虑的因素更合理,保证了纠正过程的准确性,提高了识别率和识别速度。

    模板优化的字符识别方法和系统

    公开(公告)号:CN100390815C

    公开(公告)日:2008-05-28

    申请号:CN200510090877.5

    申请日:2005-08-18

    Inventor: 刘芝 康凯 徐剑波

    Abstract: 一种模板优化的字符识别方法和系统。由训练字符集中至少一个训练字符构成一个字型,公共模板提取单元将所述字型逐次放到与其在不同组成部分上相似的字型所组成的不同待聚类集合中进行聚类并提取公共模板,参考提取出来的多级公共模板,提取所述字型的最后一级公共模板,将提取出来的该字型的各级公共模板保存到字典的模板存储模块中。模板输出单元将每个字型的内码与指向该字型各级公共模板的指针对应存储,以生成该字型的索引表并保存到字典的字型索引表存储模块中。在识别单元对待识字符集进行识别时,其中的公共模板匹配模块将一个待识字符与找到的一个字型索引表所指向的各级公共模板进行逐级匹配并记录匹配结果,以获取候选字符。

    一种图像二值化的方法

    公开(公告)号:CN100377169C

    公开(公告)日:2008-03-26

    申请号:CN200510080050.6

    申请日:2005-06-28

    Inventor: 徐剑波 康凯

    Abstract: 本发明涉及计算机信息处理领域的图像处理技术,具体涉及一种图像二值化的方法。现有技术中,通过计算机系统对数字化的图像进行二值化方法时,处理灰度直方图为正常的双峰图像一般效果比较好,但当双峰出现明显的偏移,如图像的亮度过高时,往往导致二值化域值选择不能准确而导致二值化后的图像过浅或过深,从而影响到后面对图像的继续处理,如进行文字识别。本发明所述的方法通过对二值化图像的灰度直方图进行补偿,再使用常规的二值化域值确定方法,使二值化后的图像质量提高。采用本发明所述的方法,可以有效提高灰度直方图中双峰偏移的图像的二值化效果。

    一种基于字体预测的字符识别方法

    公开(公告)号:CN1916942A

    公开(公告)日:2007-02-21

    申请号:CN200510090879.4

    申请日:2005-08-18

    Inventor: 李鹏 康凯 徐剑波

    Abstract: 本发明公开了一种基于字体预测的字符识别方法,该方法通过字体预测将多手体字符识别转化为单字体字符识别。这里用来预测字体的字体统计参考值表由不同类型的字体按照对应的统计参考值的顺序排列而成。首先对待识别文档进行版面分析,对分析出的字符区域进行字符切分以获得单字符图像数据。然后根据上述的字体统计参考值顺序,依次对字符区域中的字符图像数据进行单字体识别。采用字体预测方式进行字符识别可以迅速有效地确定待识别字符的字体,大大降低字符匹配范围,提高识别速度及准确性。

    一种字符识别的后处理方法

    公开(公告)号:CN1916941A

    公开(公告)日:2007-02-21

    申请号:CN200510090878.X

    申请日:2005-08-18

    Abstract: 本发明公开了一种字符识别的后处理方法,对初始识别之后的错误内容进行自动纠正处理。首先,识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度。而后,将候选字符相似度与预定阈值相比较确定被误识的字符。对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所述搜索词在已知的文本数据库中搜索,从而获得搜索词的至少一种测量值。最后,用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。本发明在选取候选字符时考虑的因素更合理,保证了纠正过程的准确性,提高了识别率和识别速度。

Patent Agency Ranking