基于汉字特征的文档图像分割方法

    公开(公告)号:CN101030257A

    公开(公告)日:2007-09-05

    申请号:CN200710065408.7

    申请日:2007-04-13

    Abstract: 本发明是基于汉字特征的文档图像分割方法,属于图像处理技术领域。主要包括图像的递归分层及排序、排序后子层图像的合并及合并后子层图像的文本分割。首先读取文档图像,若为彩色图像,则将该图像转换为灰度。其次,根据最大类间距与最小类内距之比取得最大值准则对图像进行递归分层,根据子层图像的方差及所含有效像素点总数确定递归终止条件。并对各分层图像进行排序。然后,对已排序的各子层图像进行合并,由子层图像的连通特性确定合并准则。最后,对已合并的各子层图像进行文本分割,分割准则由汉字表现出的一系列图像特性决定。将各子层图像的分割结果合并成最终结果。本发明对复杂背景的文档图像进行分割,得到的文本不仅清晰而且完整。

    基于汉字特征的文档图像分割方法

    公开(公告)号:CN100428268C

    公开(公告)日:2008-10-22

    申请号:CN200710065408.7

    申请日:2007-04-13

    Abstract: 本发明是基于汉字特征的文档图像分割方法,属于图像处理技术领域。主要包括图像的递归分层及排序、排序后子层图像的合并及合并后子层图像的文本分割。首先读取文档图像,若为彩色图像,则将该图像转换为灰度。其次,根据最大类间距与最小类内距之比取得最大值准则对图像进行递归分层,根据子层图像的方差及所含有效像素点总数确定递归终止条件。并对各分层图像进行排序。然后,对已排序的各子层图像进行合并,由子层图像的连通特性确定合并准则。最后,对已合并的各子层图像进行文本分割,分割准则由汉字表现出的一系列图像特性决定。将各子层图像的分割结果合并成最终结果。本发明对复杂背景的文档图像进行分割,得到的文本不仅清晰而且完整。

Patent Agency Ranking