文档图像处理装置和文档图像处理方法

    公开(公告)号:CN101354705B

    公开(公告)日:2012-06-13

    申请号:CN200710129608.4

    申请日:2007-07-23

    CPC classification number: G06F17/30253 G06F17/30017

    Abstract: 本发明提供一种可减少从文档图像中检索出所希望的标题所需的时间和劳力的文档图像处理装置。其中,由标题区域抽出部(301)检索索引信息DB(17),并抽出包含检索关键词的标题区域。顺序设定部(302)对由标题区域抽出部(301)抽出的标题区域,按照预定的规则来自动地设定顺序。显示部(303)中,显示文档图像,而且在所显示的文档图像上,按照由顺序设定部(302)设定的顺序,来强调显示由标题区域抽出部(301)抽出的标题区域。也可以基于抽出的标题关键词的个数及文字图像的特征来判断重要性,并设定所显示的检索结果的顺序。

    字形特征字典制作装置及具备该装置的文档图像处理装置

    公开(公告)号:CN101354704B

    公开(公告)日:2011-01-12

    申请号:CN200710129607.X

    申请日:2007-07-23

    CPC classification number: G06F17/30253 G06K9/723 G06K2209/01 G06K2209/011

    Abstract: 本发明提供一种字形特征字典制作装置和具备该装置的文档图像处理装置,其中,抽取出文档图像中的文字数为M个的文字列的图像,并将其分割成单个文字而抽出各文字图像的图像特征,基于该图像特征,从将文字图像的图像特征以单个文字为单位储存着的字形特征字典(15)中,按匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,制作所抽取出的文字列的文字数M×N维的第1索引矩阵。对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,制作将候补文字列调整成有意义的文字列的第2索引矩阵,并用于检索中。由此,可使检索精度进一步提高。

    文档图像处理装置和文档图像处理方法

    公开(公告)号:CN101354703B

    公开(公告)日:2010-11-17

    申请号:CN200710129606.5

    申请日:2007-07-23

    CPC classification number: G06F17/30253 G06K9/723 G06K2209/01 G06K2209/011

    Abstract: 本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。

    文档图像处理装置以及文档图像处理方法

    公开(公告)号:CN101226596A

    公开(公告)日:2008-07-23

    申请号:CN200710000961.2

    申请日:2007-01-15

    CPC classification number: G06K9/4671 G06K9/481 G06K2209/01

    Abstract: 本发明的文档图像处理装置,抽取出文档图像中的文字数为M的文字列的图像,将其按单个文字进行分割图像,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位的储存有字库中所有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。在检索时,以所输入的检索式中的构成检索关键词的单个检索文字为单位,检索索引信息储存部,并取出具有包含检索文字的索引矩阵的文档图像。由此,可提供一种具有不需要用户的手动操作的索引制作功能,且不需要采用OCR识别即可进行高精度检索的文档图像处理装置以及方法。

Patent Agency Ranking