样本对生成、大模型的训练、图像检索方法及装置、设备和介质

    公开(公告)号:CN118643342A

    公开(公告)日:2024-09-13

    申请号:CN202410875590.6

    申请日:2024-07-01

    Inventor: 李星 谢群义 姚锟

    Abstract: 本公开提供了一种样本对生成、大模型的训练、图像检索方法及装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于OCR等场景。该样本对生成方法包括:对图像样本进行处理,得到对象信息;根据提示词信息和对象信息,生成图像说明文本,其中,提示词信息包括系统提示信息和任务提示信息,图像说明文本用于描述图像样本的属性;以及,根据图像样本和图像说明文本,生成样本对。

    模型训练、难例识别方法、装置、设备、存储介质及程序

    公开(公告)号:CN115359308B

    公开(公告)日:2024-02-13

    申请号:CN202210354081.X

    申请日:2022-04-06

    Abstract: 本公开提供了模型训练、难例识别方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取预设目标检测模型及其对应的好例样本图像和难例样本图像;预设目标检测模型包括M个相同的目标检测分支网络;通过预设目标检测模型对好例样本图像和难例样本图像进行处理,得到好例样本图像对应的M个目标检测结果以及难例样本图像对应的M个目标检测结果;根据上述目标检测结果,对预设目标检测模型的模型参数进行更新,以得到难例识别模型;更新的目标为:最大化难例样本图像对应的M个目标检测结果之间的不确定性、以及最小化好例样本图像对应的M个目标检测结果之

    文本识别方法、视觉特征提取模型的训练方法及装置

    公开(公告)号:CN113657395B

    公开(公告)日:2024-02-13

    申请号:CN202110944388.0

    申请日:2021-08-17

    Abstract: 本公开提供了一种文本识别方法、视觉特征提取模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别等场景,包括:获取待识别图像中待识别文本分别对应的先验特征和视觉特征,先验特征是基于待识别图像的先验知识确定的,对先验特征和视觉特征进行融合处理,得到融合特征,对融合特征进行编码处理得到编码特征,对编码特征进行解码处理,得到与待识别文本对应的文本内容,使得文本识别过程不再为孤立和片面的过程,而具有全面性和完整性,以通过充分考虑可能影响文本识别的信息(用于确定先验特征的信息、用于确定视觉特征的信息)确定文本内容,以提高文本识别的可靠性、准确性、及精度。

    图像处理模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN113361578B

    公开(公告)日:2023-08-04

    申请号:CN202110602898.X

    申请日:2021-05-31

    Abstract: 本公开提出了图像处理模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习等技术领域,可应用于图像识别场景下。具体实现方案:获取多个训练数据,并对目标搜索空间内的网络模型集合进行搜索,以得到候选网络模型,候选网络模型包括:多个计算层,并确定与多个计算层分别对应的多个敏感程度值;根据多个敏感程度值处理候选网络模型,以得到待训练网络模型,以及采用多个训练数据训练待训练网络模型,以得到图像处理模型,能够有效地简化图像处理模型的结构,从而有效地提升图像处理模型的训练效率,有效地辅助提升图像处理效果。

    图像矫正模型的训练方法、图像矫正方法、装置及介质

    公开(公告)号:CN116503686A

    公开(公告)日:2023-07-28

    申请号:CN202310318509.X

    申请日:2023-03-28

    Abstract: 本公开提供了图像矫正模型的训练方法、图像矫正方法、装置及介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图;基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失;基于目标损失调整图像矫正模型的参数。本公开实施例中,基于第一损失使得图像矫正模型输出的偏移图能够关心图像中心区域,基于第二损失使得偏移图能够适应复杂的背景和边缘的形变,由此训练得到的图像矫正模型,具有很好的泛化能力和鲁棒性。

    训练模型的方法、装置、电子设备及存储介质

    公开(公告)号:CN115294349B

    公开(公告)日:2023-06-02

    申请号:CN202210751884.9

    申请日:2022-06-29

    Abstract: 本公开提供了训练模型的方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对原始图像进行掩码处理,得到掩码图像;基于预设模型对掩码图像进行编码处理,得到编码序列;基于编码序列进行图像重建,得到重建图像;基于重建图像及原始图像对预设模型的模型参数进行调整,得到目标模型。

    文档矫正方法、装置、电子设备和存储介质

    公开(公告)号:CN115187995B

    公开(公告)日:2023-04-18

    申请号:CN202210807745.3

    申请日:2022-07-08

    Abstract: 本公开提供了一种文档矫正方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉等技术领域,可应用于OCR等场景。文档矫正方法的具体实现方案为:对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;基于边缘像素点,确定第一边缘线;根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;对第一边缘线和网格图像的第二边缘线进行等分处理,分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点;以及根据第一关键点和第二关键点之间的对应关系,生成目标图像。

    一种光学字符识别处理方法、装置、设备及存储介质

    公开(公告)号:CN115328895A

    公开(公告)日:2022-11-11

    申请号:CN202210784523.4

    申请日:2022-07-05

    Abstract: 本公开提供了一种光学字符识别处理方法、装置、设备及存储介质,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取待清洗样本集。其中,待清洗样本集中包括携带标注信息的文本识别图像。在待清洗样本集中确定标注脏样本。其中,标注脏样本为携带错误标注信息的文本识别图像。之后,在待清洗样本集中清洗标注脏样本,得到清洗后样本集。然后,可以利用清洗后样本集进行OCR处理。本公开通过自动对待清洗样本集进行清洗,去除标注错误的标注脏样本。使得利用去除标注脏样本后的样本集进行OCR处理时,提升OCR识别准确率。

    图像处理方法和装置
    10.
    发明公开

    公开(公告)号:CN114973258A

    公开(公告)日:2022-08-30

    申请号:CN202210564943.1

    申请日:2022-05-23

    Abstract: 本公开提供了一种图像处理方法和装置,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。实现方案为:获得包括沿第一方向排列的多个字符的目标图像,多个字符中的每一个字符来自预设字符集并且在预设标签集中具有相应的标签;获得目标图像对应的识别结果集,识别结果集中的每一个识别结果包括来自预设标签集的按顺序排列的多个标签和该多个标签中的每一个标签的置信度;以及基于识别结果集,获得目标图像的图像标签,图像标签包括来自预设标签集的按顺序排列的多个标签。

Patent Agency Ranking