-
公开(公告)号:CN102236800B
公开(公告)日:2015-12-02
申请号:CN201110117322.0
申请日:2011-04-29
Applicant: 微软技术许可有限责任公司
IPC: G06K9/72
CPC classification number: G06K9/344 , G06K2209/01
Abstract: 本发明公开了经历OCR过程的文本的单词识别。一种用于在经历光学字符识别的文本图像中标识单词的方法包括,接收(410)包括已由多个切分线分割的文本行的图像(15)的位图(多个切分线各自与反映相应的切分线正确地将文本行分割成个体字符的程度的置信水平相关联)。至少部分基于文本行以及具有大于第一阈值的切分线置信水平的第一子集的切分线,来在文本行的一个中标识(420)一个或多个单词。如果(430)第一单词不与足够高的单词置信水平相关联,则至少部分基于具有大于小于第一阈值的第二阈值的置信水平的第二子集的切分线,来标识(440)至少一第二单词。