-
公开(公告)号:CN112926372B
公开(公告)日:2023-03-10
申请号:CN202010853196.4
申请日:2020-08-22
IPC: G06V20/62 , G06V10/82 , G06V10/80 , G06V10/766 , G06N3/0464 , G06N3/0455 , G06N3/045 , G06N3/044 , G06N3/048 , G06N3/084 , G06N3/09
Abstract: 本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
-
公开(公告)号:CN112215223B
公开(公告)日:2024-03-19
申请号:CN202011107999.1
申请日:2020-10-16
IPC: G06V20/62 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多元注意力机制的多方向场景文字识别方法及系统,所述方法包括:由特征提取器对从外接的文字检测模块输出的文本行/列图像I进行归一化处理,利用深层卷积神经网络对经归一化的图像提取特征,得到原始特征图F0,在原始特征图F0上叠加二维方向位置编码P输出多通道特征图F;由编码器将从特征提取器输出的多通道特征图F转换为隐含表示H;由解码器将从编码器输出的隐含表示H转换为识别文本作为输出结果。本发明提供的多方向场景文字识别方法及系统,适用于识别场景图像中的横排、竖排多种方向以及弯曲文本行,具有较强的适用性。
-
公开(公告)号:CN112926372A
公开(公告)日:2021-06-08
申请号:CN202010853196.4
申请日:2020-08-22
Abstract: 本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
-
公开(公告)号:CN112215223A
公开(公告)日:2021-01-12
申请号:CN202011107999.1
申请日:2020-10-16
Abstract: 本发明公开了一种基于多元注意力机制的多方向场景文字识别方法及系统,所述方法包括:由特征提取器对从外接的文字检测模块输出的文本行/列图像I进行归一化处理,利用深层卷积神经网络对经归一化的图像提取特征,得到原始特征图F0,在原始特征图F0上叠加二维方向位置编码P输出多通道特征图F;由编码器将从特征提取器输出的多通道特征图F转换为隐含表示H;由解码器将从编码器输出的隐含表示H转换为识别文本作为输出结果。本发明提供的多方向场景文字识别方法及系统,适用于识别场景图像中的横排、竖排多种方向以及弯曲文本行,具有较强的适用性。
-
公开(公告)号:CN115050032B
公开(公告)日:2024-07-16
申请号:CN202210477095.0
申请日:2022-05-02
Applicant: 清华大学
IPC: G06V30/19 , G06V30/41 , G06V10/82 , G06V10/774 , G06N3/09
Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。
-
公开(公告)号:CN113762241A
公开(公告)日:2021-12-07
申请号:CN202111028327.6
申请日:2021-09-02
Applicant: 清华大学
Abstract: 本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括:获取样本图像;将样本图像输入场景文字识别模型,得到样本图像对应的预测文字和文字几何形状信息的预测特征图;根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图,计算总损失函数,并利用总损失函数最小化调整场景文字识别模型的参数,得到满足收敛条件的场景文字识别模型;其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。
-
公开(公告)号:CN110522424B
公开(公告)日:2020-12-29
申请号:CN201910772417.2
申请日:2019-08-21
Applicant: 清华大学
Abstract: 本发明实施例提供一种新型压力传感器及其生理信号测量方法,该新型压力传感器包括:应变单元和测量单元;其中:应变单元用于感知压力的变化并产生弹性变形,且应变单元采用不完全透光材料;测量单元包括发光模块和光接收及转换模块;发光模块发出的光经过应变单元后被光接收及转换模块接收并转换为电信号,电信号的变化反映压力的变化。本发明实施例提供的新型压力传感器及其生理信号测量方法,通过将压力的变化转换为应变单元的形变,进而转换为光信号,并进一步转换为电信号,实现了压力变化信息的简便快速获取;并且具有精度高、可以测量很微小的压力变化,灵敏度高、压力变化反应快,体积小、使用方便,抗干扰能力强等诸多优点。
-
公开(公告)号:CN104008538B
公开(公告)日:2017-03-01
申请号:CN201410198233.7
申请日:2014-05-12
Applicant: 清华大学
Abstract: 本发明涉及一种基于单张图像超分辨率方法,包括:S1:对输入的低分辨率图像双三次插值得到初始高分辨率图像;S2:将初始高分辨率图像划分为相互重叠的多个图像块进而得到相似图像块分组,并对其去除图像噪声;S3:将去噪后的多个图像块融合成整张高分辨率图像,并对每个图像块求非局部相似图像块以及加权系数,计算非局部相似图像块分组的冗余度权重;S4:根据相似图像块分组更新在线字典并与离线字典融合;S5:求每个图像块关于融合字典的稀疏表达系数;S6:重建所有图像块和整张高分辨率图像,若迭代不收敛且迭代次数小于预定阈值则返回,否则输出高分辨率图像。本发明提升了超分辨率重建的真实感和准确性,并具有同时去除图像噪声的优点。
-
公开(公告)号:CN101025791A
公开(公告)日:2007-08-29
申请号:CN200710065195.8
申请日:2007-04-06
Applicant: 清华大学
IPC: G06K9/72
Abstract: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。
-
公开(公告)号:CN1312625C
公开(公告)日:2007-04-25
申请号:CN200410062261.2
申请日:2004-07-02
Applicant: 清华大学
Abstract: 基于游程邻接图的复杂背景彩色图像中字符提取方法,属于彩色图像文字识别预处理中的文字字符提取领域。在得到数字彩色图像之后,首先使用CRAG(color run-length adjacencygraph)区域生长算法得到图像的所有彩色连通域,再通过对这些连通域的颜色平均值进行颜色聚类,得到若干个颜色中心,以此颜色中心形成不同的颜色层面,然后将符合连通域判别规则的彩色连通域分到若干个颜色层面上。最后通过特征分析和大小一致性判据从颜色层面中挑选出文字字符图像层面,获得在文字图像层面的字符图像。该算法解决了彩色文字字符笔画图像渐变的字符图像提取问题,并具有较高的提取速度,具有较高的提取准确率,同时保留了文字和背景图像的原始色彩,便于将来的图像恢复。
-
-
-
-
-
-
-
-
-