-
公开(公告)号:CN111507247A
公开(公告)日:2020-08-07
申请号:CN202010298651.9
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开一种基于强化学习的古籍文字精准检测方法,包括步骤S1、数据获取,收集古籍文献的图像数据,并进行单字标注,形成古籍文献数据集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的古籍文献数据集对粗检测器进行训练,基于训练后的粗检测器对古籍文献进行文字粗检测;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将文字粗检测结果作为强化学习智能体的输入,选取基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体进行古籍文献的文字检测。本发明通过强化学习来进一步提高文字检测精度,为古籍文字的研究提供了有力的帮助。
-
公开(公告)号:CN111507351B
公开(公告)日:2023-05-30
申请号:CN202010298720.6
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V30/148 , G06V30/416 , G06V30/19 , G06V30/14 , G06N3/0464 , G06N3/08
-
公开(公告)号:CN111507351A
公开(公告)日:2020-08-07
申请号:CN202010298720.6
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开一种古籍文档数字化的方法,包括:收集数据,再利用收集的数据训练单字检测模型,得到单字输出结果;同时训练单字分类模型,对检测后的单字输出分类结果,结合单字的检测以及识别结果最终得到文档的识别结果;利用图形形态学的方法提取文档版面的直线,并设计算法解决文档双列夹注的问题,为文档结构化输出提供条件,最后输出图片对应的文档数字化结果,完成文档数字化的工作。本发明方法解决了版面复杂,密集文档下的单字检测以及较大的文档背景中包括污渍干扰等问题,具有简单高效,识别精度高的优点,将现代计算机信息技术与传统人文文化相结合,对于数字遗产保护,信息发现,纸质文档转录等工作具有重要的积极作用。
-
公开(公告)号:CN111507247B
公开(公告)日:2023-04-18
申请号:CN202010298651.9
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V30/414 , G06V30/148 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于强化学习的古籍文字精准检测方法,包括步骤S1、数据获取,收集古籍文献的图像数据,并进行单字标注,形成古籍文献数据集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的古籍文献数据集对粗检测器进行训练,基于训练后的粗检测器对古籍文献进行文字粗检测;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将文字粗检测结果作为强化学习智能体的输入,选取基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体进行古籍文献的文字检测。本发明通过强化学习来进一步提高文字检测精度,为古籍文字的研究提供了有力的帮助。
-
公开(公告)号:CN109410242B
公开(公告)日:2020-09-22
申请号:CN201811031639.0
申请日:2018-09-05
Applicant: 华南理工大学
IPC: G06T7/246
Abstract: 本发明公开了一种基于双流卷积神经网络的目标跟踪方法、系统、设备及介质,所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,提取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。本发明达到了很好的跟踪效果。
-
公开(公告)号:CN109410242A
公开(公告)日:2019-03-01
申请号:CN201811031639.0
申请日:2018-09-05
Applicant: 华南理工大学
IPC: G06T7/20
Abstract: 本发明公开了一种基于双流卷积神经网络的目标跟踪方法、系统、设备及介质,所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,提取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。本发明达到了很好的跟踪效果。
-
公开(公告)号:CN114565789B
公开(公告)日:2024-05-24
申请号:CN202210151148.X
申请日:2022-02-15
Applicant: 华南理工大学
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于集合预测的文本检测方法、系统、装置及介质,其中方法包括:S1、预设查询向量;S2、利用神经网络对包含文本的图片进行特征提取,通过感兴趣区域池化对齐机制映射每个所述查询向量对应的文本区域高维特征向量;S3、对查询向量进一步编码,获得加强查询向量;S4、将所述加强查询向量与所述文本区域高维特征向量进行联合解码,输入到共享的多层全连接感知器,解析获得每个查询向量所编码的文本检测结果;S5、重复步骤S2至S4若干次,迭代得到更准确的文本检测结果。本发明采用级联的结构迭代预测,在文本行尺度变化剧烈,密集,变形等情况下,检测结果依然精确,可广泛应用于模式识别与人工智能技术领域。
-
公开(公告)号:CN113723330B
公开(公告)日:2023-11-07
申请号:CN202111039933.8
申请日:2021-09-06
Applicant: 华南理工大学
IPC: G06V30/412 , G06V30/413 , G06V30/19 , G06V10/82 , G06N3/0464 , G06V10/80 , G06T5/30 , G06F40/30 , G06V10/764
Abstract: 本发明公开了一种图表文档信息理解的方法及系统,包括:采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。
-
公开(公告)号:CN113723330A
公开(公告)日:2021-11-30
申请号:CN202111039933.8
申请日:2021-09-06
Applicant: 华南理工大学
Abstract: 本发明公开了一种图表文档信息理解的方法及系统,包括:采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。
-
公开(公告)号:CN109308725A
公开(公告)日:2019-02-05
申请号:CN201810998168.4
申请日:2018-08-29
Applicant: 华南理工大学
Abstract: 本发明属于人工智能与互联网技术领域,为移动端表情趣图生成的系统,包括移动端和服务器端;移动端包括数据采集获取单元、控制单元、显示单元和数据请求单元,保存单元、分享单元分别与显示单元连接,数据采集获取单元、显示单元、数据请求单元分别与控制单元连接;服务器端采用基于生成对抗网络的方法构造深度卷积神经网络模型;控制单元通过数据请求单元对深度神经网络模型进行先验的条件控制,使其将数据请求单元输入的原图进行相应控制单元所需要图片的生成,生成完成之后通过数据请求单元返回显示单元。本发明能学习出面部表情特征以生成不同情绪、不同发色、不同年龄的人脸表情,转换性能好、速率快,满足人们猎奇和趣味恶搞的心理需求。
-
-
-
-
-
-
-
-
-