一种基于特征对齐和熵正则化的域适应文本图像识别方法

    公开(公告)号:CN115050032B

    公开(公告)日:2024-07-16

    申请号:CN202210477095.0

    申请日:2022-05-02

    Applicant: 清华大学

    Abstract: 本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。

    场景文字识别模型的训练方法与识别方法及装置

    公开(公告)号:CN113762241A

    公开(公告)日:2021-12-07

    申请号:CN202111028327.6

    申请日:2021-09-02

    Applicant: 清华大学

    Abstract: 本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括:获取样本图像;将样本图像输入场景文字识别模型,得到样本图像对应的预测文字和文字几何形状信息的预测特征图;根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图,计算总损失函数,并利用总损失函数最小化调整场景文字识别模型的参数,得到满足收敛条件的场景文字识别模型;其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。

    一种新型压力传感器及其生理信号测量方法

    公开(公告)号:CN110522424B

    公开(公告)日:2020-12-29

    申请号:CN201910772417.2

    申请日:2019-08-21

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种新型压力传感器及其生理信号测量方法,该新型压力传感器包括:应变单元和测量单元;其中:应变单元用于感知压力的变化并产生弹性变形,且应变单元采用不完全透光材料;测量单元包括发光模块和光接收及转换模块;发光模块发出的光经过应变单元后被光接收及转换模块接收并转换为电信号,电信号的变化反映压力的变化。本发明实施例提供的新型压力传感器及其生理信号测量方法,通过将压力的变化转换为应变单元的形变,进而转换为光信号,并进一步转换为电信号,实现了压力变化信息的简便快速获取;并且具有精度高、可以测量很微小的压力变化,灵敏度高、压力变化反应快,体积小、使用方便,抗干扰能力强等诸多优点。

    基于单张图像超分辨率方法

    公开(公告)号:CN104008538B

    公开(公告)日:2017-03-01

    申请号:CN201410198233.7

    申请日:2014-05-12

    Applicant: 清华大学

    Abstract: 本发明涉及一种基于单张图像超分辨率方法,包括:S1:对输入的低分辨率图像双三次插值得到初始高分辨率图像;S2:将初始高分辨率图像划分为相互重叠的多个图像块进而得到相似图像块分组,并对其去除图像噪声;S3:将去噪后的多个图像块融合成整张高分辨率图像,并对每个图像块求非局部相似图像块以及加权系数,计算非局部相似图像块分组的冗余度权重;S4:根据相似图像块分组更新在线字典并与离线字典融合;S5:求每个图像块关于融合字典的稀疏表达系数;S6:重建所有图像块和整张高分辨率图像,若迭代不收敛且迭代次数小于预定阈值则返回,否则输出高分辨率图像。本发明提升了超分辨率重建的真实感和准确性,并具有同时去除图像噪声的优点。

    印刷蒙古文文本切分方法

    公开(公告)号:CN101025791A

    公开(公告)日:2007-08-29

    申请号:CN200710065195.8

    申请日:2007-04-06

    Applicant: 清华大学

    Abstract: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。

    基于游程邻接图的复杂背景彩色图像中字符提取方法

    公开(公告)号:CN1312625C

    公开(公告)日:2007-04-25

    申请号:CN200410062261.2

    申请日:2004-07-02

    Applicant: 清华大学

    Abstract: 基于游程邻接图的复杂背景彩色图像中字符提取方法,属于彩色图像文字识别预处理中的文字字符提取领域。在得到数字彩色图像之后,首先使用CRAG(color run-length adjacencygraph)区域生长算法得到图像的所有彩色连通域,再通过对这些连通域的颜色平均值进行颜色聚类,得到若干个颜色中心,以此颜色中心形成不同的颜色层面,然后将符合连通域判别规则的彩色连通域分到若干个颜色层面上。最后通过特征分析和大小一致性判据从颜色层面中挑选出文字字符图像层面,获得在文字图像层面的字符图像。该算法解决了彩色文字字符笔画图像渐变的字符图像提取问题,并具有较高的提取速度,具有较高的提取准确率,同时保留了文字和背景图像的原始色彩,便于将来的图像恢复。

    多字体多字号印刷体藏文字符识别方法

    公开(公告)号:CN1251130C

    公开(公告)日:2006-04-12

    申请号:CN200410034107.4

    申请日:2004-04-23

    Applicant: 清华大学

    Abstract: 多字体多字号印刷体藏文字符识别方法属于字符识别领域,其特征在于,提出了针对属于非方块字的印刷体藏文字符特点的归一化方案:将字符图像以基线,即上平线,为分界点分解成互不交叠的两个子图像,对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法;提取能充分反映藏文字符组成信息的四方向线素特征,利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的粗、细两级分类策略进行字符类别的判决,粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF。本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83%,对实际文本的识别率也可达99%以上。

    几何代价和语义-识别代价融合的脱机手写汉字切分方法

    公开(公告)号:CN1719454A

    公开(公告)日:2006-01-11

    申请号:CN200510012195.2

    申请日:2005-07-15

    Applicant: 清华大学

    Abstract: 几何代价和语义-识别代价融合的脱机手写汉字切分方法,属于文字识别领域,其特征在于,首先通过对输入的脱机手写汉字的行图像进行分析,提取出笔段,将笔段合并成子字符块,同时给出子字符块合并的几何代价,由这些几何代价生成若干可能的候选切分方法,对每个方法用语言的二元语法模型进行评价,得到每种切分方式的语义-识别代价,最后综合几何与语义-识别代价给出最优的切分识别方案。本发明应用于手写信封地址的切分与识别上,其切分正确率可以达到93%,大大改进了传统切分方法的性能,对于其他语言文字或领域的切分问题也有一定的指导作用。

    基于游程邻接图的复杂背景彩色图像中字符提取方法

    公开(公告)号:CN1588431A

    公开(公告)日:2005-03-02

    申请号:CN200410062261.2

    申请日:2004-07-02

    Applicant: 清华大学

    Abstract: 基于游程邻接图的复杂背景彩色图像中字符提取方法,属于彩色图像文字识别预处理中的文字字符提取领域。在得到数字彩色图像之后,首先使用CRAG(color run-length adjacency graph)区域生长算法得到图像的所有彩色连通域,再通过对这些连通域的颜色平均值进行颜色聚类,得到若干个颜色中心,以此颜色中心形成不同的颜色层面,然后将符合连通域判别规则的彩色连通域分到若干个颜色层面上。最后通过特征分析和大小一致性判据从颜色层面中挑选出文字字符图像层面,获得在文字图像层面的字符图像。该算法解决了彩色文字字符笔画图像渐变的字符图像提取问题,并具有较高的提取速度,具有较高的提取准确率,同时保留了文字和背景图像的原始色彩,便于将来的图像恢复。

    一种基于多任务学习的场景文本检测方法及系统

    公开(公告)号:CN115546778B

    公开(公告)日:2023-06-13

    申请号:CN202211298048.6

    申请日:2022-10-22

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于多任务学习的场景文本检测方法及系统,该方法包括:将场景图像输入至文本检测模型,文本检测模型,包括主干网络、特征金字塔网络、区域候选网络和检测网络,其中,利用主干网络和特征金字塔网络对场景图像进行特征提取,得到多尺度特征图,将多尺度特征图输入区域候选网络得到候选区域特征图,并利用检测网络对候选区域特征图进行文本检测得到文本检测结果;其中,检测网络的结构,包括外接框回归分支、掩膜预测分支与文本识别分支的多任务学习级联细化网络结构。本发明对于场景图像复杂的前景和背景变化有较强的适应能力,可以提高文本检测性能。

Patent Agency Ranking