图像重建模型的训练方法、商品识别方法、装置及设备

    公开(公告)号:CN116468816A

    公开(公告)日:2023-07-21

    申请号:CN202310342126.6

    申请日:2023-03-31

    Abstract: 本公开提供了图像重建模型的训练方法、商品识别方法、装置及设备。本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市等场景。具体实现方案为:随机选取各样本图像的K个随机掩码区域及其对应的K个原始图像;对各样本图像的K个随机掩码区域进行随机掩码处理,得到各样本图像的经过随机掩码处理后的输入图像;将各样本图像的输入图像和K个随机掩码区域的检测框输入图像重建模型,得到各样本图像的K个预测图像;基于各样本图像的K个预测图像和K个原始图像,对图像重建模型进行训练,得到图像重建模型。根据本公开的方案,能够增强模型的细粒度特征表达能力,从而提升商品识别的准确性。

    文本检测、文本检测模型优化、数据标注的方法、装置

    公开(公告)号:CN117275005B

    公开(公告)日:2024-08-09

    申请号:CN202311233516.6

    申请日:2023-09-21

    Abstract: 本公开提供了一种文本检测、文本检测模型优化、数据标注的方法、装置,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于人工智能的内容生成等场景。实现方案为:获取包含文本的图像的图像特征,以及用于对定位文本进行提示的提示信息特征;对图像特征进行编码操作,以得到经编码的图像特征;基于经编码的图像特征与提示信息特征之间的相关性,确定用于解码操作的锚定框,锚定框用于在解码操作中提供与文本的位置相关的位置参考信息;以及基于经编码的图像特征与提示信息特征之间的注意力交互,以及锚定框提供的位置参考信息,执行解码操作以得到在图像中定位文本的检测框。

    标签处理方法、装置、电子设备及存储介质

    公开(公告)号:CN116486413A

    公开(公告)日:2023-07-25

    申请号:CN202310348278.7

    申请日:2023-04-03

    Abstract: 本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于光学文字识别、智慧城市等场景,具体涉及一种标签处理方法、装置、电子设备及存储介质。具体实现方案为:获取对商品标签中的多个文本行检测区域进行识别,获得的多个文本识别结果,每个文本识别结果对应一个文本行检测区域;通过数值匹配方式,对多个文本识别结果进行处理,获得商品标签中的标签信息。采用本公开可以有效应对实际业务场景中多样化的标签版式分布情况,从而提高标签处理方法的可用性。

    文本检测及文本检测模型训练方法、装置和设备

    公开(公告)号:CN118840756A

    公开(公告)日:2024-10-25

    申请号:CN202410841220.0

    申请日:2024-06-26

    Abstract: 本公开提供了一种文本检测及文本检测模型训练方法、装置和设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于OCR等场景。文本预测方法包括:对目标图像进行特征提取,以获得所述目标图像的图像特征;所述目标图像中包含待检测文本;基于所述图像特征进行多个文本粒度的检测处理,以获得多种候选检测结果;所述多种候选检测结果与所述多个文本粒度一一对应;基于所述多种候选检测结果获取目标粒度的待处理检测结果;基于所述图像特征和所述待处理检测结果的目标位置特征进行分割处理,以获得所述待检测文本的所述目标粒度的目标检测结果。

    图像重建模型的训练方法、商品识别方法、装置及设备

    公开(公告)号:CN116468816B

    公开(公告)日:2024-04-16

    申请号:CN202310342126.6

    申请日:2023-03-31

    Abstract: 本公开提供了图像重建模型的训练方法、商品识别方法、装置及设备。本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市等场景。具体实现方案为:随机选取各样本图像的K个随机掩码区域及其对应的K个原始图像;对各样本图像的K个随机掩码区域进行随机掩码处理,得到各样本图像的经过随机掩码处理后的输入图像;将各样本图像的输入图像和K个随机掩码区域的检测框输入图像重建模型,得到各样本图像的K个预测图像;基于各样本图像的K个预测图像和K个原始图像,对图像重建模型进行训练,得到图像重建模型。根据本公开的方案,能够增强模型的细粒度特征表达能力,从而提升商品识别的准确性。

    文本检测、文本检测模型优化、数据标注的方法、装置

    公开(公告)号:CN117275005A

    公开(公告)日:2023-12-22

    申请号:CN202311233516.6

    申请日:2023-09-21

    Abstract: 本公开提供了一种文本检测、文本检测模型优化、数据标注的方法、装置,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于人工智能的内容生成等场景。实现方案为:获取包含文本的图像的图像特征,以及用于对定位文本进行提示的提示信息特征;对图像特征进行编码操作,以得到经编码的图像特征;基于经编码的图像特征与提示信息特征之间的相关性,确定用于解码操作的锚定框,锚定框用于在解码操作中提供与文本的位置相关的位置参考信息;以及基于经编码的图像特征与提示信息特征之间的注意力交互,以及锚定框提供的位置参考信息,执行解码操作以得到在图像中定位文本的检测框。

Patent Agency Ranking