摘要生成装置和摘要生成方法

    公开(公告)号:CN102479196B

    公开(公告)日:2014-09-10

    申请号:CN201010560580.1

    申请日:2010-11-23

    Inventor: 乐宁 吴波 吴亚栋

    Abstract: 本发明目的是提供摘要生成装置和摘要生成方法,通过考虑具有多个词义的单词而能够生成适当的摘要。在摘要生成装置(100)中设有:存储文章数据的文章数据存储部(10);对由文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频的词频统计部(20);基于文章数据和表示文章中的单词和副单词中词频最高者的数据来选择文章中的多个句子,从而生成摘要数据的句子选择部(30)。

    文档图像处理装置以及文档图像处理方法

    公开(公告)号:CN101226596B

    公开(公告)日:2012-02-01

    申请号:CN200710000961.2

    申请日:2007-01-15

    CPC classification number: G06K9/4671 G06K9/481 G06K2209/01

    Abstract: 本发明的文档图像处理装置,抽取出文档图像中的文字数为M的文字列的图像,将其按单个文字进行分割图像,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位的储存有字库中所有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。在检索时,以所输入的检索式中的构成检索关键词的单个检索文字为单位,检索索引信息储存部,并取出具有包含检索文字的索引矩阵的文档图像。由此,可提供一种具有不需要用户的手动操作的索引制作功能,且不需要采用OCR识别即可进行高精度检索的文档图像处理装置以及方法。

    文档处理装置
    33.
    发明授权

    公开(公告)号:CN101526938B

    公开(公告)日:2011-12-28

    申请号:CN200810006557.0

    申请日:2008-03-06

    Abstract: 本发明提供一种文档处理装置。根据该文档处理装置,若通过输入部(11)输入文档,则预处理部(12)将所输入的文档分离成多个单词。重要度算出部(14)算出基于单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词,由用户确定了关键词后,可以算出基于单词的频度以及关键词的特征值,并基于算出的特征值来算出句子的重要度。摘要生成部(15)基于所算出的重要度,并依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,显示部(16)显示所生成的摘要。

    文档处理装置
    34.
    发明公开

    公开(公告)号:CN101526938A

    公开(公告)日:2009-09-09

    申请号:CN200810006557.0

    申请日:2008-03-06

    Abstract: 本发明提供一种文档处理装置。根据该文档处理装置,若通过输入部(11)输入文档,则预处理部(12)将所输入的文档分离成多个单词。重要度算出部(14)算出基于单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词,由用户确定了关键词后,可以算出基于单词的频度以及关键词的特征值,并基于算出的特征值来算出句子的重要度。摘要生成部(15)基于所算出的重要度,并依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,显示部(16)显示所生成的摘要。

    文字图像抽出装置及文字图像抽出方法

    公开(公告)号:CN101354746A

    公开(公告)日:2009-01-28

    申请号:CN200710129605.0

    申请日:2007-07-23

    CPC classification number: G06K9/34 G06K9/342 G06K9/348 G06K2209/01

    Abstract: 本发明提供一种文字图像抽出方法及文字图像抽出装置。在抽出步骤中,通过抽出部(401),对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从其中抽出由与连接成分外接的外接图形划分的划分要素。在改变步骤中,通过第一改变部(402),在上述抽出的划分要素中,将至少一部分相互重合的划分要素进行综合而作为新的划分要素。在下面的第一选择步骤中,通过第一选择部(403),预先确定基准大小,在第一改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。之后,可以按该顺序执行第二改变步骤及第二选择步骤。由此,可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像。

    文档图像处理装置和文档图像处理方法

    公开(公告)号:CN101354705A

    公开(公告)日:2009-01-28

    申请号:CN200710129608.4

    申请日:2007-07-23

    CPC classification number: G06F17/30253 G06F17/30017

    Abstract: 本发明提供一种可减少从文档图像中检索出所希望的标题所需的时间和劳力的文档图像处理装置。其中,由标题区域抽出部(301)检索索引信息DB(17),并抽出包含检索关键词的标题区域。顺序设定部(302)对由标题区域抽出部(301)抽出的标题区域,按照预定的规则来自动地设定顺序。显示部(303)中,显示文档图像,而且在所显示的文档图像上,按照由顺序设定部(302)设定的顺序,来强调显示由标题区域抽出部(301)抽出的标题区域。也可以基于抽出的标题关键词的个数及文字图像的特征来判断重要性,并设定所显示的检索结果的顺序。

    文档图像处理装置和文档图像处理方法

    公开(公告)号:CN101354703A

    公开(公告)日:2009-01-28

    申请号:CN200710129606.5

    申请日:2007-07-23

    CPC classification number: G06F17/30253 G06K9/723 G06K2209/01 G06K2209/011

    Abstract: 本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。

    文档图像处理装置以及文档图像处理方法

    公开(公告)号:CN101226595A

    公开(公告)日:2008-07-23

    申请号:CN200710000960.8

    申请日:2007-01-15

    CPC classification number: G06K9/6828 G06F17/30253

    Abstract: 本发明的文档图像处理装置,抽取出文档图像中的标题区域的图像,将其按单个文字进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。然后,基于所制作出的索引矩阵,制作出反映了文档图像内容的有意义的文档名,并对所存储的文档图像进行管理。由此,可以提供一种不用麻烦用户的手,就可自动制作反映了文档图像内容的有意义的文档名并进行管理的文档图像处理装置及方法。

Patent Agency Ranking