-
公开(公告)号:CN111428718B
公开(公告)日:2023-05-09
申请号:CN202010240272.4
申请日:2020-03-30
Applicant: 南京大学
IPC: G06V20/62 , G06V10/46 , G06V10/764 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 本发明公开一种基于图像增强的自然场景文本识别方法,包括以下步骤:(1)构建包含增强网络和识别网络的自然场景文本识别模型;(2)训练基于图像增强的自然场景文本识别模型;(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别获得的文字字符序列。本发明通过在文本识别模型中的识别网络模块前引入专门的图像增强模块,并端到端地对整个识别模型进行训练,使得所引入图像增强模块能够自适应地对输入图像进行调整和增强,例如抑制复杂背景、突出文本区域等,从而改善图像的质量,有效提高后继文本识别网络模块的准确率。
-
公开(公告)号:CN100476349C
公开(公告)日:2009-04-08
申请号:CN200710134001.5
申请日:2007-10-17
Applicant: 南京大学
CPC classification number: Y02P90/265
Abstract: 本发明提供了一种多关联工程图环境下全局坐标系的自动计算方法,其基本出发点是通过自动识别工程图中的尺寸线,逐步组合成正交轴网、局部逻辑坐标系和全局逻辑坐标系并记录相应变换矩阵,最后生成全局坐标系。本发明的有益效果在于,在CAD环境中输入一组以不同比例、方向绘制的关联图,可自动生成工程项目的全局坐标系;而该全局坐标系是精确计算各种工程数据及其它相关工程应用的前提条件,本方法可以节省大量人工计算费用,并有效减少人工计算带来的误差,从而提高计算机辅助设计效率。该方法具有较高的通用性,可适用于多种工程领域。
-
公开(公告)号:CN109460763A
公开(公告)日:2019-03-12
申请号:CN201811267160.7
申请日:2018-10-29
Applicant: 南京大学
Abstract: 本发明公开了一种基于多层次文本组件定位与生长的自然场景图像中文本区域提取方法,首先输入灰度或彩色RGB图像;在输入图像上运行MSER算法,进而以MSER边界作为区域边缘在MSER中运行SWT算法,获取极值区域内部像素的笔画宽度值;在极值区域中计算笔画宽度直方图,选取直方图中包含最多像素数量的三个笔画宽度对应的像素集合,并将通过边缘梯度差角特征验证的像素集合中的像素作为种子像素;基于种子像素,迭代进行字符内、字符间两个层次的生长过程,进一步基于多种文本区域特征对生长后获得的区域进行过滤,并将最终得到的文本区域作为结果输出。本发明提出的文本区域提取方法能够兼顾提取结果的精度和召回率,同时不依赖于特定机器学习模型,简单易重现。
-
公开(公告)号:CN109410239A
公开(公告)日:2019-03-01
申请号:CN201811320070.X
申请日:2018-11-07
Applicant: 南京大学
Abstract: 本发明公开了一种基于条件生成对抗网络的文本图像超分辨率重建方法。该方法修改了普通的条件生成对抗网络的结构,使其更加适应于文本图像的超分辨率重建任务,另外引入并利用了文本-非文本二值分割图像作为超分辨率重建模型的额外训练监督信息,并结合文本-非文本二值分割信息构造模型的损失函数以约束模型的训练,使得超分辨率重建模型更加集中于图像中的文本部分。相比一般图像超分辨率方法,本发明公开的文本图像超分辨率重建方法更加充分和针对性地利用了文本自身信息,有效提高了文本图像超分辨率重建的质量。
-
公开(公告)号:CN101996245B
公开(公告)日:2012-08-15
申请号:CN201010536182.6
申请日:2010-11-09
Applicant: 南京大学
IPC: G06F17/30
Abstract: 本发明公开了一种图形对象的形状特征描述与检索方法,包括以下步骤:输入二值图像形式的待检索的图形对象P;对待检索的图形对象P进行形状特征抽取;基于图形对象的各层次表示的形状特征描述,计算待检索的图形对象P与系统实例库中待比对图形对象Q的相似度;从系统实例库中选择与待检索的图形对象P相似度最高的一个或一组实例作为检索结果输出。本发明所提出的形状特征描述综合了图形对象多层次的形状特征,具有较好的刻画与检索性能,在检索精度和算法复杂度上具有灵活可调的特点,可以适应较大范围对象类型的处理需要,并可有效处理图形检索中噪声、局部形变等干扰情况的影响。本发明可适用于各种涉及图形检索与识别处理的软件系统中。
-
公开(公告)号:CN119338680A
公开(公告)日:2025-01-21
申请号:CN202411482048.0
申请日:2024-10-23
Applicant: 南京大学
IPC: G06T3/4053 , G06V30/18 , G06V30/19 , G06T3/4046 , G06N3/047 , G06N3/0464 , G06N3/048 , G06N3/0442
Abstract: 本发明公开一种融合文本边缘、分割和语义特征的文本图像超分辨率增强方法、电子设备及存储介质。文本图像超分辨率增强方法包括以下步骤:获取低分辨率输入文本图像的边缘特征、分割特征、语义特征及文本图像特征;将边缘特征、分割特征、语义特征及文本图像特征进行融合处理,得到高分辨率文本图像。本发明通过引入视觉‑语义提示生成器,将文本图像的边缘特征和分割特征分别与语义特征融合,生成两种互补的文本视觉‑语义提示引导文本图像的重建。引入多提示重建模块及跨模态注意力机制,将两种文本视觉‑语义提示中的信息与文本图像特征进行融合与增强。增强后的文本图像特征经自适应融合模块和像素上采样处理后得到超分辨率增强后的文本图像。
-
公开(公告)号:CN100476350C
公开(公告)日:2009-04-08
申请号:CN200710134005.3
申请日:2007-10-17
Applicant: 南京大学
CPC classification number: Y02P90/265
Abstract: 本发明提供了一种关联工程图环境下全局坐标的自动定位方法,该方法通过自动识别工程图中的尺寸线,逐步组合成正交轴网、局部逻辑坐标系和全局逻辑坐标系并记录相应变换矩阵,然后接收任一图纸坐标输入,即可根据对应的变换矩阵计算得到多关联图整合条件下的全局逻辑坐标。本发明的有益之处是,从CAD环境中输入一组以不同比例、方向绘制的关联图,将任一工程图中任一图纸坐标自动精确转换到其对应的全局逻辑坐标,可用于在全局环境下对任一工程对象精确定位,从而节省大量人工计算开销,有效提高计算机辅助设计效率,并可进一步用于三维重建、各种工程数据精确计算等。该方法具有较高的通用性,可适用于多种工程领域。
-
公开(公告)号:CN101144710A
公开(公告)日:2008-03-19
申请号:CN200710134001.5
申请日:2007-10-17
Applicant: 南京大学
CPC classification number: Y02P90/265
Abstract: 本发明提供了一种多关联工程图环境下全局坐标系的自动计算方法,其基本出发点是通过自动识别工程图中的尺寸线,逐步组合成正交轴网、局部逻辑坐标系和全局逻辑坐标系并记录相应变换矩阵,最后生成全局坐标系。本发明的有益效果在于,在CAD环境中输入一组以不同比例、方向绘制的关联图,可自动生成工程项目的全局坐标系;而该全局坐标系是精确计算各种工程数据及其它相关工程应用的前提条件,本方法可以节省大量人工计算费用,并有效减少人工计算带来的误差,从而提高计算机辅助设计效率。该方法具有较高的通用性,可适用于多种工程领域。
-
公开(公告)号:CN109460763B
公开(公告)日:2022-06-21
申请号:CN201811267160.7
申请日:2018-10-29
Applicant: 南京大学
IPC: G06V20/62 , G06V10/26 , G06V30/148
Abstract: 本发明公开了一种基于多层次文本组件定位与生长的自然场景图像中文本区域提取方法,首先输入灰度或彩色RGB图像;在输入图像上运行MSER算法,进而以MSER边界作为区域边缘在MSER中运行SWT算法,获取极值区域内部像素的笔画宽度值;在极值区域中计算笔画宽度直方图,选取直方图中包含最多像素数量的三个笔画宽度对应的像素集合,并将通过边缘梯度差角特征验证的像素集合中的像素作为种子像素;基于种子像素,迭代进行字符内、字符间两个层次的生长过程,进一步基于多种文本区域特征对生长后获得的区域进行过滤,并将最终得到的文本区域作为结果输出。本发明提出的文本区域提取方法能够兼顾提取结果的精度和召回率,同时不依赖于特定机器学习模型,简单易重现。
-
公开(公告)号:CN111428718A
公开(公告)日:2020-07-17
申请号:CN202010240272.4
申请日:2020-03-30
Applicant: 南京大学
Abstract: 本发明公开一种基于图像增强的自然场景文本识别方法,包括以下步骤:(1)构建包含增强网络和识别网络的自然场景文本识别模型;(2)训练基于图像增强的自然场景文本识别模型;(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别获得的文字字符序列。本发明通过在文本识别模型中的识别网络模块前引入专门的图像增强模块,并端到端地对整个识别模型进行训练,使得所引入图像增强模块能够自适应地对输入图像进行调整和增强,例如抑制复杂背景、突出文本区域等,从而改善图像的质量,有效提高后继文本识别网络模块的准确率。
-
-
-
-
-
-
-
-
-