文本检测、文本检测模型优化、数据标注的方法、装置

    公开(公告)号:CN117275005B

    公开(公告)日:2024-08-09

    申请号:CN202311233516.6

    申请日:2023-09-21

    摘要: 本公开提供了一种文本检测、文本检测模型优化、数据标注的方法、装置,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于人工智能的内容生成等场景。实现方案为:获取包含文本的图像的图像特征,以及用于对定位文本进行提示的提示信息特征;对图像特征进行编码操作,以得到经编码的图像特征;基于经编码的图像特征与提示信息特征之间的相关性,确定用于解码操作的锚定框,锚定框用于在解码操作中提供与文本的位置相关的位置参考信息;以及基于经编码的图像特征与提示信息特征之间的注意力交互,以及锚定框提供的位置参考信息,执行解码操作以得到在图像中定位文本的检测框。

    图像处理方法、训练方法、装置、电子设备及存储介质

    公开(公告)号:CN116385789B

    公开(公告)日:2024-01-23

    申请号:CN202310368589.X

    申请日:2023-04-07

    摘要: 本公开提供了一种图像处理方法、训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。该图像处理方法的具体实现方案为:提取待处理图像的图像特征;根据待处理图像的图像处理任务,确定特征分布图和处理路径,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式;基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征;以及按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。

    公式识别方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN117315689A

    公开(公告)日:2023-12-29

    申请号:CN202311267820.2

    申请日:2023-09-27

    摘要: 本公开提供了一种公式识别方法、装置、设备、存储介质及程序产品,涉及计算机视觉、深度学习、图像处理等人工智能技术领域,可应用于智慧金融、智慧政务等场景。该方法包括:利用编码网络得到包含有公式的待识别图像的特征图,并利用解码网络中的全局行注意力模块得到与特征图对应的行计数热力图;利用解码网络对特征图中的特征依次进行解码操作:处理行计数热力图和已解码公式符号的特征编码,并对处理后得到的当前隐藏层状态和特征图注意力模块再进行处理,得到待解码公式符号的区域图像;处理将区域图像、特征编码、当前隐藏层状态和行计数热力图,得到输出的公式符号识别结果;将解码网络依次输出的公式符号识别结果生成公式符号序列。

    文档版式检测模型的训练方法、装置及电子设备

    公开(公告)号:CN117312849A

    公开(公告)日:2023-12-29

    申请号:CN202311220870.5

    申请日:2023-09-20

    IPC分类号: G06F18/214 G06F40/197

    摘要: 本公开提供了文档版式检测模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域。具体实现方案为:获取第一训练数据、初始的第一文档版式检测模型、以及第二文档版式检测模型;第二文档版式检测模型的参数,根据包括多个样本文档图像的真标签的第二训练数据确定;将第一训练数据中的样本文档图像输入第二文档版式检测模型,获取版式预测结果;根据版式预测结果以及第一训练数据中该样本文档图像的弱标签,确定伪标签;进而结合伪标签对第一文档版式检测模型进行训练处理。

    文字识别方法、装置、设备、存储介质和智能词典笔

    公开(公告)号:CN113642584B

    公开(公告)日:2023-11-28

    申请号:CN202110934110.5

    申请日:2021-08-13

    IPC分类号: G06V30/148

    摘要: 本公开公开了一种文字识别方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取针对文档连续扫描得到的多个图像序列;基于多个图像序列进行图像拼接,得到对应的多个连续拼接图像帧,其中,两两连续拼接图像帧之间存在重叠区域;基于多个连续拼接图像帧进行文字识别,得到对应的多个识别结果;以及基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域,对多个识别结果进行去重处理,得到针对文档的文字识别结果。

    文字识别模型的训练方法和识别图像中文字的方法

    公开(公告)号:CN113313022B

    公开(公告)日:2023-11-10

    申请号:CN202110587936.9

    申请日:2021-05-27

    摘要: 本公开提供了一种文字识别模型的训练方法和识别图像中文字的方法、装置、电子设备和存储介质,应用于人工智能技术领域,具体应用于计算机视觉和深度学习技术领域,可应用于图像识别场景下。文字识别模型的训练方法的具体实现方案为:以第一目标图像作为第一文字识别模型的输入,获得第一特征图;以样本图像作为第二文字识别模型的输入,获得第二特征图,其中,第二文字识别模型以第一文字识别模型作为初始模型;基于第一特征图和第二特征图的差异,确定第一损失值;以及基于第一损失值,对第二文字识别模型进行训练。其中,第一目标图像与样本图像包括相同的文字,且第一目标图像以目标格式表示文字。

    图像处理方法、相关装置及计算机程序产品

    公开(公告)号:CN113255664B

    公开(公告)日:2023-10-20

    申请号:CN202110576183.1

    申请日:2021-05-26

    IPC分类号: G06V30/146

    摘要: 本公开提供了图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及计算机视觉和深度学习等人工智能技术领域,可应用于图像识别场景下。该方法的一具体实施方式包括:确定待处理图像在不同分辨率下构成待矫正对象的像素点的三维坐标,得到三维预测坐标后,根据该三维预测坐标确定该待矫正对象的表面扭曲参数,最终根据该三维预测坐标和该表面扭曲参数生成该待矫正对象的平面图像。该实施方式基于不同分辨率的待处理图像进行三维坐标预测,以更精准的确定待矫正对象的表面扭曲参数,实现更为精准的图像扭曲矫正,提升图像识别、矫正结果的质量。

    图像识别方法、装置、设备及存储介质

    公开(公告)号:CN116843963A

    公开(公告)日:2023-10-03

    申请号:CN202310781222.0

    申请日:2023-06-28

    摘要: 本公开提供一种图像识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市的场景下。具体实现方案包括:对目标图像进行向量化,得到至少两个第一特征向量;对第一特征向量按照自注意力网络模型中编码模块的序列和第一融合规则,依次通过每个编码模块进行编码,得到第二特征向量;编码模块包括至少两个,第一融合规则包括:在至少一组相邻的两个编码模块之间对前一个编码模块编码得到的特征向量进行融合,融合后的特征向量数量小于前一个编码模块编码得到的特征向量数量,根据第二特征向量确定目标图像的识别结果。本公开可以显著减少图像识别过程对计算资源的耗费。