-
公开(公告)号:CN110263682A
公开(公告)日:2019-09-20
申请号:CN201910481627.6
申请日:2019-06-04
Applicant: 北京华宇信息技术有限公司
Abstract: 本发明公开了一种基于轮廓提取的表格识别方法、装置、设备及存储介质,该基于轮廓提取的表格识别方法包括:对输入的图像进行轮廓提取;根据提取的轮廓判断所述图像是否倾斜,如果所述图像倾斜则对所述图像进行纠偏;从所述图像中提取单元格;合并所提取的所有单元格形成初始表格图;对所述初始表格图进行修复;从所述图像中二次提取单元格;合并二次提取的所有单元格以形成最终表格图。该基于轮廓提取的表格识别方法、装置、设备及存储介质可以适用于各种类型的基于轮廓提取的表格识别,并且速度较快。
-
公开(公告)号:CN114359943B
公开(公告)日:2024-12-20
申请号:CN202210038042.9
申请日:2022-01-13
Applicant: 北京华宇信息技术有限公司
IPC: G06V30/41 , G06V30/148 , G06V10/762
Abstract: 本申请公开了一种OFD版式文档段落识别方法及装置,用以解决版式文档提取文字段落错误率高的技术问题。其中,一种OFD版式文档段落识别方案,通过对所述版式图像进行图像分割,至少生成若干文字块;提取所述若干文字块的特征属性;将相似版式进行聚类,生成元素为文字块的若干聚类文字块集合;对所述若干聚类文字块集合进行段落识别,生成段落块信息;根据所述段落块信息,更新版式文档中的段落标识。以便操作者在对文本段落进行提取时,可以得到还原流式格式的字符串。并且通过对文字块的语义连续性进行计算,提高了识别文本段落的准确性。同时,还针对OFD版式文档表格提出了一种新的文本提取方案,提高了文本提取的泛用性。
-
公开(公告)号:CN110717127A
公开(公告)日:2020-01-21
申请号:CN201910972680.6
申请日:2019-10-14
Applicant: 北京华宇信息技术有限公司
IPC: G06F16/957
Abstract: 本发明提供一种OFD文件在线解析与浏览的方法与装置,解析客户端指定页码的文件并生成标准的HTML和CSS,随后触发预生成服务,开始从该指定页之后逐页生成其他页码文件的HTML和CSS。客户端翻页后,如果服务端没有预生成对应的HTML和CSS文件,则生成翻页后的页面,继续从翻页的后页面开始重新触发预生成服务;如果服务端已经预生成了翻页页面对应的HTML和CSS文件,则直接利用预生成的文件进行前端显示。本发明无需全部解压OFD文件,通过预生成文件,提高翻页响应能力;本发明能直接生成文本格式,便于用户在网页上对文字进行选择或复制。
-
公开(公告)号:CN117392984A
公开(公告)日:2024-01-12
申请号:CN202311533155.7
申请日:2023-11-16
Applicant: 北京华宇信息技术有限公司
Abstract: 本申请公开了一种语音识别方法及装置,该语音识别方法包括:获取待识别的语音信息;对所述待识别的语音信息进行分段处理,获得分段处理结果,其中,所述分段处理结果至少包括:人物序号及起止时间戳;基于所述分段处理结果,对所述待识别的语音信息进行拼接,获得语音组合结果,所述语音组合结果包括多个人物序号分别对应的语音组合信息;对所述语音组合结果进行声纹识别,确定所述语音组合结果对应的人物身份;将所述语音组合结果的文字提取结果与所述语音组合结果对应的人物身份进行绑定,获得语音识别结果。
-
公开(公告)号:CN114359943A
公开(公告)日:2022-04-15
申请号:CN202210038042.9
申请日:2022-01-13
Applicant: 北京华宇信息技术有限公司
IPC: G06V30/414 , G06V10/26 , G06V10/762 , G06K9/62
Abstract: 本申请公开了一种OFD版式文档段落识别方法及装置,用以解决版式文档提取文字段落错误率高的技术问题。其中,一种OFD版式文档段落识别方案,通过对所述版式图像进行图像分割,至少生成若干文字块;提取所述若干文字块的特征属性;将相似版式进行聚类,生成元素为文字块的若干聚类文字块集合;对所述若干聚类文字块集合进行段落识别,生成段落块信息;根据所述段落块信息,更新版式文档中的段落标识。以便操作者在对文本段落进行提取时,可以得到还原流式格式的字符串。并且通过对文字块的语义连续性进行计算,提高了识别文本段落的准确性。同时,还针对OFD版式文档表格提出了一种新的文本提取方案,提高了文本提取的泛用性。
-
公开(公告)号:CN111445433A
公开(公告)日:2020-07-24
申请号:CN201910972988.0
申请日:2019-10-14
Applicant: 北京华宇信息技术有限公司
Abstract: 本发明提供一种电子卷宗的空白页和模糊页的检测方法及装置,在检测之前,先对装置进行空白区域检测训练,形成空白区域检测模型。基于空白区域检测模型对空白页进行匹配。本发明的模糊页检测依赖于空白区域检测,并把空白区域作为清晰图像进行处理。本发明解决了现有技术中的因图像内容分布不均匀而导致的误检率高的问题,以及解决了模糊检测中空白区域容易当成模糊图像的问题。
-
公开(公告)号:CN110765385A
公开(公告)日:2020-02-07
申请号:CN201911018601.4
申请日:2019-10-24
Applicant: 北京华宇信息技术有限公司
IPC: G06F16/957
Abstract: 本发明提供一种OFD文档网页端浏览的方法及系统,浏览器将OFD文档标识传给服务器,服务器返回OFD文档的页结构信息给浏览器;浏览器根据接收的信息对OFD文档进行分组,生成所有分组的HTML标签,并生成当前分组下包含页的HTML标签。当前页为第n页,浏览器在浏览器缓存中查询第n-1、n、n+1、n+2页是否已经加载,如果已经加载,则不做处理,如果没有加载,则向服务器请求加载相应页面数据。本发明采用异步加载的方式,按需加载,减少了浏览器端的等待时间,简化HTML文档结构,可以降低浏览器的渲染压力,提高浏览器的响应速度。
-
公开(公告)号:CN109948521A
公开(公告)日:2019-06-28
申请号:CN201910202982.5
申请日:2019-03-18
Applicant: 北京华宇信息技术有限公司
Abstract: 本发明公开了一种图像纠偏方法、装置、设备及存储介质,该图像纠偏方法包括:对图像进行边缘检测;对经过边缘检测的图像进行前景分类,以将所述图像的前景分为文本类前景和非文本类前景;判断是否有文本类前景,如果有则确定文本类前景的倾斜角度;判断是否有非文本类前景,如果有确定非文本类前景的倾斜角度;根据所述文本类前景的倾斜角度和/或所述非文本类前景的倾斜角度确定所述图像的倾斜角度;根据所述图像的倾斜角度对所述图像进行纠偏。该图像纠偏方法、装置、设备及存储介质可以适用于各种类型的图像纠偏,并且速度较快。
-
公开(公告)号:CN112800366B
公开(公告)日:2024-12-27
申请号:CN202011629226.X
申请日:2020-12-31
Applicant: 北京华宇信息技术有限公司
IPC: G06F16/958
Abstract: 本申请公开了一种OFD文档在线浏览方法,包括:解析待浏览OFD文档,获得OFD文档第一元素、与第一元素不同的第二元素的索引信息;根据所述索引信息,以第一用户界面展示所述第一元素;接收用户针对第二元素的浏览指令;根据用户的浏览指令和所述索引信息,以第二用户界面展示第二元素。本申请实施例的文档浏览方法,文档结构明显减少,当在线浏览OFD文档时,预览区域主要是分组HTML DIV,页HTML DIV。文字信息暂存在内存中,选中的时候才会生成相应的DIV标签,从而避免大量html元素的生成和重绘,进一步节约系统资源,提高浏览效率。
-
公开(公告)号:CN117252192A
公开(公告)日:2023-12-19
申请号:CN202311303903.2
申请日:2023-10-09
Applicant: 北京华宇信息技术有限公司
IPC: G06F40/237 , G06F40/232 , G06F18/22
Abstract: 本申请公开了一种形似字库生成方法及系统,用以解决低质量样本字单元构成的形似字库导致文字校对系统识别效率较低的技术问题。其中,一种形似字库生成方案,通过从表意文字描述序列、笔画序列两个筛选维度确定目标字单元的形近字单元,相互补充各筛选维度遗漏的形近字单元,得到较为全面的综合形近字集合。之后对综合形近字集合内若干形近字单元分别以四角号码序列、字频两个评价维度,进一步筛选出容易出现输入错误的形近字单元,构成形似字库。这样的形似字库体量适中、质量较高,适用于日常的文字校对,能够提高文字校对系统的识别效率和校对性能。
-
-
-
-
-
-
-
-
-