-
公开(公告)号:CN101493896A
公开(公告)日:2009-07-29
申请号:CN200810000249.7
申请日:2008-01-24
Applicant: 夏普株式会社
Abstract: 抽取出文档图像中字符数为M的字符串,将其1个字符1个字符地分割,抽出各字符图像的图像特征,根据该图像特征,利用以1个字符为单位储存字符图像的图像特征的字形特征字典15,按照匹配度从高到低的顺序选择N个(N>1的整数)字符图像作为候选字符,创建抽取出的字符串的字符数M×N维的第1索引矩阵。从创建的第1索引矩阵作成字符组合,根据基于概念词典的意义解析,抽出主题词。抽出的主题词按照基于规定的权重信息、统计信息决定的顺序进行一览显示。
-
公开(公告)号:CN102479196B
公开(公告)日:2014-09-10
申请号:CN201010560580.1
申请日:2010-11-23
Applicant: 夏普株式会社
IPC: G06F17/30
Abstract: 本发明目的是提供摘要生成装置和摘要生成方法,通过考虑具有多个词义的单词而能够生成适当的摘要。在摘要生成装置(100)中设有:存储文章数据的文章数据存储部(10);对由文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频的词频统计部(20);基于文章数据和表示文章中的单词和副单词中词频最高者的数据来选择文章中的多个句子,从而生成摘要数据的句子选择部(30)。
-
公开(公告)号:CN101324878B
公开(公告)日:2012-06-13
申请号:CN200710111842.4
申请日:2007-06-15
Applicant: 夏普株式会社
Abstract: 公开了一种适用于包括单词词典的对象语言文字输入系统的新单词自动学习方法,包括:采集步骤,从输入的对象语言语料中采集新单词词典和单词词典中没有的字串作为采集字串,所述新单词词典用于保存所述单词词典中没有的单词;第一保存步骤,将所述采集字串中没有存在于临时新字串词典中的采集字串作为临时新字串保存在临时新字串词典中,以及将存在于所述临时新字串词典中但没有存在于新字串词典中的采集字串作为新字串保存在新字串词典中;以及第二保存步骤,在利用对象语言文字输入系统进行对象语言文字输入过程中用户选择被作为输入候选项呈现的、所述新字串词典中的新字串时,将该新字串作为新单词保存在所述新单词词典中。
-
公开(公告)号:CN101226596B
公开(公告)日:2012-02-01
申请号:CN200710000961.2
申请日:2007-01-15
Applicant: 夏普株式会社
CPC classification number: G06K9/4671 , G06K9/481 , G06K2209/01
Abstract: 本发明的文档图像处理装置,抽取出文档图像中的文字数为M的文字列的图像,将其按单个文字进行分割图像,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位的储存有字库中所有文字图像的图像特征的字形特征字典中,按照匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,并制作成抽取出的文字列的文字数M×N维索引矩阵。在检索时,以所输入的检索式中的构成检索关键词的单个检索文字为单位,检索索引信息储存部,并取出具有包含检索文字的索引矩阵的文档图像。由此,可提供一种具有不需要用户的手动操作的索引制作功能,且不需要采用OCR识别即可进行高精度检索的文档图像处理装置以及方法。
-
公开(公告)号:CN101154379B
公开(公告)日:2011-11-23
申请号:CN200610152758.2
申请日:2006-09-27
Applicant: 夏普株式会社
CPC classification number: G10L15/02 , G10L15/10 , G10L15/142 , G10L2015/025 , G10L2015/088
Abstract: 公开了一种定位语音中的关键词的方法和设备以及语音识别系统。所述方法包括步骤:提取构成待识别语音的各个帧的特征参数矢量,以形成用于描述待识别语音的特征参数矢量序列;利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理,以得到待识别语音在矢量空间中的特征轨迹;以及匹配预先存储的关键词模板轨迹和所述特征轨迹,以确定关键词的位置。利用本发明,由于基于同一码本来描述关键词模板轨迹和待识别语音的特征空间轨迹,所以在具有相同音韵特征结构的音频帧进行线性移动匹配时不需要重新刻度,这提高了定位和识别的速度,并同时保证了识别的精度。
-
公开(公告)号:CN101276363B
公开(公告)日:2011-02-16
申请号:CN200710090670.7
申请日:2007-03-30
Applicant: 夏普株式会社
CPC classification number: G06K9/4604 , G06K9/00456 , G06K2209/01
Abstract: 本发明提供一种可提高以文字和图表为主要内容的文档图像的检索精度的文档图像的检索装置及检索方法。本发明的文档图像的检索装置在图像的特征区段的信息中包含有用于图像彼此之间的识别中的特征矢量。具体地讲,将文档图像页中的文字部分连接,而抽出矩形图像,基于该矩形图像的信息,分析页的几何构造,并将文档图像页分割成多个区段,且从其中选择表现文档图像页的特征的多个特征区段,由所选择的这些特征区段的信息构成特征矢量。
-
公开(公告)号:CN101354749A
公开(公告)日:2009-01-28
申请号:CN200710130196.6
申请日:2007-07-24
Applicant: 夏普株式会社
Abstract: 公开了一种制作字典的方法、手写输入方法和设备。该制作字典的方法能够预测笔划要输入的文字,以便减轻使用者的负担。该方法包括步骤:提取文字的整字样本的整字特征,和笔划数大于预定值的文字的部分笔划样本的部分笔划特征;以及通过用机器学习算法对所述整字特征和所述部分笔划特征进行学习来生成文字的整字模板和/或部分笔划模板,作为字典中的项目。本系统具有结构简单、硬件要求低、识别速度快,识别率高等优点,可在嵌入式系统等上实现。
-
公开(公告)号:CN101354746A
公开(公告)日:2009-01-28
申请号:CN200710129605.0
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06K9/34 , G06K9/342 , G06K9/348 , G06K2209/01
Abstract: 本发明提供一种文字图像抽出方法及文字图像抽出装置。在抽出步骤中,通过抽出部(401),对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从其中抽出由与连接成分外接的外接图形划分的划分要素。在改变步骤中,通过第一改变部(402),在上述抽出的划分要素中,将至少一部分相互重合的划分要素进行综合而作为新的划分要素。在下面的第一选择步骤中,通过第一选择部(403),预先确定基准大小,在第一改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。之后,可以按该顺序执行第二改变步骤及第二选择步骤。由此,可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像。
-
公开(公告)号:CN101354705A
公开(公告)日:2009-01-28
申请号:CN200710129608.4
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06F17/30017
Abstract: 本发明提供一种可减少从文档图像中检索出所希望的标题所需的时间和劳力的文档图像处理装置。其中,由标题区域抽出部(301)检索索引信息DB(17),并抽出包含检索关键词的标题区域。顺序设定部(302)对由标题区域抽出部(301)抽出的标题区域,按照预定的规则来自动地设定顺序。显示部(303)中,显示文档图像,而且在所显示的文档图像上,按照由顺序设定部(302)设定的顺序,来强调显示由标题区域抽出部(301)抽出的标题区域。也可以基于抽出的标题关键词的个数及文字图像的特征来判断重要性,并设定所显示的检索结果的顺序。
-
公开(公告)号:CN101354703A
公开(公告)日:2009-01-28
申请号:CN200710129606.5
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06K9/723 , G06K2209/01 , G06K2209/011
Abstract: 本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。
-
-
-
-
-
-
-
-
-