文本识别模型的训练方法、文本识别方法及装置

    公开(公告)号:CN114399769A

    公开(公告)日:2022-04-26

    申请号:CN202210279539.X

    申请日:2022-03-22

    Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。

    图像处理方法、图像处理模型的训练方法、装置和设备

    公开(公告)号:CN117351330B

    公开(公告)日:2025-04-25

    申请号:CN202311282976.8

    申请日:2023-09-28

    Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于智慧城市等场景。图像处理方法包括:获取目标图像和图像处理任务的任务描述信息,并在多个预设任务类型中确定与图像处理任务对应的目标任务类型;以及利用图像处理模型对目标图像和任务描述信息进行处理,以得到目标图像的处理结果,其中,图像处理模型包括与多个预设任务类型对应的多个任务编码子模型和多个任务解码子模型,并且包括多个预设任务类型共用的第一图像编码子模型和特征交互编码子模型。

    三维对象检测方法及装置、电子设备和存储介质

    公开(公告)号:CN117542042B

    公开(公告)日:2025-03-11

    申请号:CN202311553137.5

    申请日:2023-11-20

    Abstract: 本公开提供了一种三维对象检测方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、虚拟现实、深度学习、大模型等技术领域,可应用于自动驾驶等场景。三维对象检测方法包括:提取待检测图像的特征图;将特征图投影至目标三维空间中,以得到目标三维空间的第一空间特征;基于目标三维空间中的参考点在特征图中的投影点,对特征图进行采样,以得到目标三维空间的第二空间特征;对第一空间特征和第二空间特征进行融合,以得到融合空间特征;以及基于融合空间特征,确定待检测图像的三维对象检测结果。

    基于3D高斯的逆渲染方法、装置、设备及存储介质

    公开(公告)号:CN118644605A

    公开(公告)日:2024-09-13

    申请号:CN202410705736.2

    申请日:2024-06-01

    Abstract: 本公开提供了基于3D高斯的逆渲染方法、装置、设备及存储介质,本公开涉及人工智能技术领域,具体为计算机视觉、深度学习等技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:基于目标场景的多个视角的二维图像对目标场景进行三维建模,得到基于多个3D高斯点表达的目标场景的场景属性;基于目标场景的场景属性、材质属性以及光照参数,得到目标场景的各3D高斯点的颜色值;基于各3D高斯点的颜色值,将目标场景分别按照多个视角投射到二维空间,得到多张映射图像;基于多张映射图像和多个视角的二维图像之间的损失,优化场景属性、材质属性和光照参数。

    目标检测模型的训练方法、装置、电子设备和存储介质

    公开(公告)号:CN116611491A

    公开(公告)日:2023-08-18

    申请号:CN202310444257.5

    申请日:2023-04-23

    Abstract: 本申请公开了目标检测模型的训练方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、深度学习等技术领域,可应用于智慧城市等场景。方案为:对获取样本图像进行编码,获取样本图像对应的编码特征;对编码特征与M组查询特征中的每组查询特征进行解码,获取每组查询特征对应的一组预测结果,其中,M组查询特征是对目标检测模型的多个第一查询特征进行分组得到的;根据每组预测结果中各预测结果与样本图像对应的第一标注之间的匹配结果,对目标检测模型进行训练。由此,分组对预测结果与标注进行匹配,从整体上来讲,样本图像中每个目标可以匹配上多个正样本,使得每个样本图像的监督信号增强,加速了模型的收敛速度。

Patent Agency Ranking