-
公开(公告)号:CN111507247B
公开(公告)日:2023-04-18
申请号:CN202010298651.9
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V30/414 , G06V30/148 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于强化学习的古籍文字精准检测方法,包括步骤S1、数据获取,收集古籍文献的图像数据,并进行单字标注,形成古籍文献数据集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的古籍文献数据集对粗检测器进行训练,基于训练后的粗检测器对古籍文献进行文字粗检测;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将文字粗检测结果作为强化学习智能体的输入,选取基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体进行古籍文献的文字检测。本发明通过强化学习来进一步提高文字检测精度,为古籍文字的研究提供了有力的帮助。
-
公开(公告)号:CN109948714B
公开(公告)日:2022-11-29
申请号:CN201910221267.6
申请日:2019-03-22
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V10/774 , G06V10/82 , G06N3/04
Abstract: 本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果;本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割以及误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。
-
公开(公告)号:CN109948714A
公开(公告)日:2019-06-28
申请号:CN201910221267.6
申请日:2019-03-22
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果;本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割以及误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。
-
公开(公告)号:CN111738167A
公开(公告)日:2020-10-02
申请号:CN202010589597.3
申请日:2020-06-24
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开一种无约束手写文本图像的识别方法,包括:S1.对输入的无约束手写文本进行预处理,得到预处理后的文本数据;S2.在步骤S1得到的预处理文本数据的基础上,生成文本特征序列;S3.在步骤S2得到的文本特征序列基础上,在时序维度上通过多层蒸馏GRU网络提炼文本特征;S4.通过CTC转录层输出识别结果。本发明不仅能够有效的处理手写文本字符中的连笔书写问题,还能有效处理字符与字符之间的无约束空间关系,其包扩:水平书写、纵向书写、重叠书写、多行列书写、倾斜书写、转向书写等书写类型。本发明结合大量的有标注的无约束手写文本,能够训练出能准确识别无约束手写文本的系统。
-
公开(公告)号:CN111507247A
公开(公告)日:2020-08-07
申请号:CN202010298651.9
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开一种基于强化学习的古籍文字精准检测方法,包括步骤S1、数据获取,收集古籍文献的图像数据,并进行单字标注,形成古籍文献数据集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的古籍文献数据集对粗检测器进行训练,基于训练后的粗检测器对古籍文献进行文字粗检测;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将文字粗检测结果作为强化学习智能体的输入,选取基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体进行古籍文献的文字检测。本发明通过强化学习来进一步提高文字检测精度,为古籍文字的研究提供了有力的帮助。
-
公开(公告)号:CN111507351B
公开(公告)日:2023-05-30
申请号:CN202010298720.6
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V30/148 , G06V30/416 , G06V30/19 , G06V30/14 , G06N3/0464 , G06N3/08
-
公开(公告)号:CN111507351A
公开(公告)日:2020-08-07
申请号:CN202010298720.6
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开一种古籍文档数字化的方法,包括:收集数据,再利用收集的数据训练单字检测模型,得到单字输出结果;同时训练单字分类模型,对检测后的单字输出分类结果,结合单字的检测以及识别结果最终得到文档的识别结果;利用图形形态学的方法提取文档版面的直线,并设计算法解决文档双列夹注的问题,为文档结构化输出提供条件,最后输出图片对应的文档数字化结果,完成文档数字化的工作。本发明方法解决了版面复杂,密集文档下的单字检测以及较大的文档背景中包括污渍干扰等问题,具有简单高效,识别精度高的优点,将现代计算机信息技术与传统人文文化相结合,对于数字遗产保护,信息发现,纸质文档转录等工作具有重要的积极作用。
-
公开(公告)号:CN114529917B
公开(公告)日:2024-08-23
申请号:CN202210095194.2
申请日:2022-01-26
Applicant: 华南理工大学
IPC: G06V30/40 , G06V30/418 , G06V10/75 , G06V30/19 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06T9/00
Abstract: 本发明公开了一种零样本中文单字识别方法、系统、装置及存储介质,其中方法包括:提取中文单字图像的视觉特征;对中文单字类别进行可学习的类别编码,对中文单字的部件结构进行分解,并计算得到可学习的类别编码;将所述中文单字的类别编码映射到视觉空间中,通过重构损失函数来约束类别编码在映射前后的语义一致性;通过基于transformer的解码器,匹配中文单字的类别编码和图像的视觉特征,从图像的视觉特征上获取与类别编码相关的特征,最终解码输出中文单字的识别结果。本发明通过可学习的类别编码方法,实现了零样本的中文单字识别,解决了现有中文单字识别方法依赖于大量有标注数据的问题。本发明可广泛应用于模式识别与人工智能技术领域。
-
公开(公告)号:CN114529917A
公开(公告)日:2022-05-24
申请号:CN202210095194.2
申请日:2022-01-26
Applicant: 华南理工大学
Abstract: 本发明公开了一种零样本中文单字识别方法、系统、装置及存储介质,其中方法包括:提取中文单字图像的视觉特征;对中文单字类别进行可学习的类别编码,对中文单字的部件结构进行分解,并计算得到可学习的类别编码;将所述中文单字的类别编码映射到视觉空间中,通过重构损失函数来约束类别编码在映射前后的语义一致性;通过基于transformer的解码器,匹配中文单字的类别编码和图像的视觉特征,从图像的视觉特征上获取与类别编码相关的特征,最终解码输出中文单字的识别结果。本发明通过可学习的类别编码方法,实现了零样本的中文单字识别,解决了现有中文单字识别方法依赖于大量有标注数据的问题。本发明可广泛应用于模式识别与人工智能技术领域。
-
公开(公告)号:CN103824269A
公开(公告)日:2014-05-28
申请号:CN201210465767.2
申请日:2012-11-16
Applicant: 广州三星通信技术研究有限公司 , 华南理工大学 , 三星电子株式会社
Abstract: 提供一种人脸的特效处理方法和系统。所述方法包括,在服务器端执行以下操作:从客户机接收图片;从接收的图片检测人脸区域;从检测的人脸区域检测特征点;根据检测的人脸区域的形状和特征点的位置,从图片库搜索一组相似的人脸图片作为相似图片子集;基于相似图片子集合成平均脸;将合成的平均脸和检测的人脸区域按照预定的权值进行加权融合,将融合得到的结果作为具有预定的特效特性的人脸图片;将融合形成的具有预定的特效特性的人脸图片发送给所述客户机。
-
-
-
-
-
-
-
-
-