-
公开(公告)号:CN101226595B
公开(公告)日:2012-05-23
申请号:CN200710000960.8
申请日:2007-01-15
Applicant: 夏普株式会社
CPC classification number: G06K9/6828 , G06F17/30253
Abstract: 本发明的文档图像处理装置,抽取出文档图像中的标题区域的图像,将其按单个文字进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。然后,基于所制作出的索引矩阵,制作出反映了文档图像内容的有意义的文档名,并对所存储的文档图像进行管理。由此,可以提供一种不用麻烦用户的手,就可自动制作反映了文档图像内容的有意义的文档名并进行管理的文档图像处理装置及方法。
-
公开(公告)号:CN101493896A
公开(公告)日:2009-07-29
申请号:CN200810000249.7
申请日:2008-01-24
Applicant: 夏普株式会社
Abstract: 抽取出文档图像中字符数为M的字符串,将其1个字符1个字符地分割,抽出各字符图像的图像特征,根据该图像特征,利用以1个字符为单位储存字符图像的图像特征的字形特征字典15,按照匹配度从高到低的顺序选择N个(N>1的整数)字符图像作为候选字符,创建抽取出的字符串的字符数M×N维的第1索引矩阵。从创建的第1索引矩阵作成字符组合,根据基于概念词典的意义解析,抽出主题词。抽出的主题词按照基于规定的权重信息、统计信息决定的顺序进行一览显示。
-
公开(公告)号:CN101354746B
公开(公告)日:2011-08-31
申请号:CN200710129605.0
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06K9/34 , G06K9/342 , G06K9/348 , G06K2209/01
Abstract: 本发明提供一种文字图像抽出方法及文字图像抽出装置。在抽出步骤中,通过抽出部(401),对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从其中抽出由与连接成分外接的外接图形划分的划分要素。在改变步骤中,通过第一改变部(402),在上述抽出的划分要素中,将至少一部分相互重合的划分要素进行综合而作为新的划分要素。在下面的第一选择步骤中,通过第一选择部(403),预先确定基准大小,在第一改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。之后,可以按该顺序执行第二改变步骤及第二选择步骤。由此,可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像。
-
公开(公告)号:CN101354704A
公开(公告)日:2009-01-28
申请号:CN200710129607.X
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06K9/723 , G06K2209/01 , G06K2209/011
Abstract: 本发明提供一种字形特征字典制作装置和具备该装置的文档图像处理装置,其中,抽取出文档图像中的文字数为M个的文字列的图像,并将其分割成单个文字而抽出各文字图像的图像特征,基于该图像特征,从将文字图像的图像特征以单个文字为单位储存着的字形特征字典(15)中,按匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,制作所抽取出的文字列的文字数M×N维的第1索引矩阵。对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,制作将候补文字列调整成有意义的文字列的第2索引矩阵,并用于检索中。由此,可使检索精度进一步提高。
-
公开(公告)号:CN101226596B
公开(公告)日:2012-02-01
申请号:CN200710000961.2
申请日:2007-01-15
Applicant: 夏普株式会社
CPC classification number: G06K9/4671 , G06K9/481 , G06K2209/01
Abstract: 本发明的文档图像处理装置,抽取出文档图像中的文字数为M的文字列的图像,将其按单个文字进行分割图像,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位的储存有字库中所有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。在检索时,以所输入的检索式中的构成检索关键词的单个检索文字为单位,检索索引信息储存部,并取出具有包含检索文字的索引矩阵的文档图像。由此,可提供一种具有不需要用户的手动操作的索引制作功能,且不需要采用OCR识别即可进行高精度检索的文档图像处理装置以及方法。
-
公开(公告)号:CN101354746A
公开(公告)日:2009-01-28
申请号:CN200710129605.0
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06K9/34 , G06K9/342 , G06K9/348 , G06K2209/01
Abstract: 本发明提供一种文字图像抽出方法及文字图像抽出装置。在抽出步骤中,通过抽出部(401),对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从其中抽出由与连接成分外接的外接图形划分的划分要素。在改变步骤中,通过第一改变部(402),在上述抽出的划分要素中,将至少一部分相互重合的划分要素进行综合而作为新的划分要素。在下面的第一选择步骤中,通过第一选择部(403),预先确定基准大小,在第一改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。之后,可以按该顺序执行第二改变步骤及第二选择步骤。由此,可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像。
-
公开(公告)号:CN101354705A
公开(公告)日:2009-01-28
申请号:CN200710129608.4
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06F17/30017
Abstract: 本发明提供一种可减少从文档图像中检索出所希望的标题所需的时间和劳力的文档图像处理装置。其中,由标题区域抽出部(301)检索索引信息DB(17),并抽出包含检索关键词的标题区域。顺序设定部(302)对由标题区域抽出部(301)抽出的标题区域,按照预定的规则来自动地设定顺序。显示部(303)中,显示文档图像,而且在所显示的文档图像上,按照由顺序设定部(302)设定的顺序,来强调显示由标题区域抽出部(301)抽出的标题区域。也可以基于抽出的标题关键词的个数及文字图像的特征来判断重要性,并设定所显示的检索结果的顺序。
-
公开(公告)号:CN101354703A
公开(公告)日:2009-01-28
申请号:CN200710129606.5
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06K9/723 , G06K2209/01 , G06K2209/011
Abstract: 本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。
-
公开(公告)号:CN101226595A
公开(公告)日:2008-07-23
申请号:CN200710000960.8
申请日:2007-01-15
Applicant: 夏普株式会社
CPC classification number: G06K9/6828 , G06F17/30253
Abstract: 本发明的文档图像处理装置,抽取出文档图像中的标题区域的图像,将其按单个文字进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。然后,基于所制作出的索引矩阵,制作出反映了文档图像内容的有意义的文档名,并对所存储的文档图像进行管理。由此,可以提供一种不用麻烦用户的手,就可自动制作反映了文档图像内容的有意义的文档名并进行管理的文档图像处理装置及方法。
-
公开(公告)号:CN101493896B
公开(公告)日:2013-02-06
申请号:CN200810000249.7
申请日:2008-01-24
Applicant: 夏普株式会社
Abstract: 抽取出文档图像中字符数为M的字符串,将其1个字符1个字符地分割,抽出各字符图像的图像特征,根据该图像特征,利用以1个字符为单位储存字符图像的图像特征的字形特征字典15,按照匹配度从高到低的顺序选择N个(N>1的整数)字符图像作为候选字符,创建抽取出的字符串的字符数M×N维的第1索引矩阵。从创建的第1索引矩阵作成字符组合,根据基于概念词典的意义解析,抽出主题词。抽出的主题词按照基于规定的权重信息、统计信息决定的顺序进行一览显示。
-
-
-
-
-
-
-
-
-