-
公开(公告)号:CN116468816A
公开(公告)日:2023-07-21
申请号:CN202310342126.6
申请日:2023-03-31
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/00 , G06V10/25 , G06V10/774 , G06V10/82 , G06V10/40 , G06V10/77 , G06N3/08 , G06N3/0464
Abstract: 本公开提供了图像重建模型的训练方法、商品识别方法、装置及设备。本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市等场景。具体实现方案为:随机选取各样本图像的K个随机掩码区域及其对应的K个原始图像;对各样本图像的K个随机掩码区域进行随机掩码处理,得到各样本图像的经过随机掩码处理后的输入图像;将各样本图像的输入图像和K个随机掩码区域的检测框输入图像重建模型,得到各样本图像的K个预测图像;基于各样本图像的K个预测图像和K个原始图像,对图像重建模型进行训练,得到图像重建模型。根据本公开的方案,能够增强模型的细粒度特征表达能力,从而提升商品识别的准确性。
-
公开(公告)号:CN117275005B
公开(公告)日:2024-08-09
申请号:CN202311233516.6
申请日:2023-09-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/18 , G06V30/146 , G06N3/0455 , G06N3/08 , G06V10/82
Abstract: 本公开提供了一种文本检测、文本检测模型优化、数据标注的方法、装置,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于人工智能的内容生成等场景。实现方案为:获取包含文本的图像的图像特征,以及用于对定位文本进行提示的提示信息特征;对图像特征进行编码操作,以得到经编码的图像特征;基于经编码的图像特征与提示信息特征之间的相关性,确定用于解码操作的锚定框,锚定框用于在解码操作中提供与文本的位置相关的位置参考信息;以及基于经编码的图像特征与提示信息特征之间的注意力交互,以及锚定框提供的位置参考信息,执行解码操作以得到在图像中定位文本的检测框。
-
公开(公告)号:CN116486413A
公开(公告)日:2023-07-25
申请号:CN202310348278.7
申请日:2023-04-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148
Abstract: 本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于光学文字识别、智慧城市等场景,具体涉及一种标签处理方法、装置、电子设备及存储介质。具体实现方案为:获取对商品标签中的多个文本行检测区域进行识别,获得的多个文本识别结果,每个文本识别结果对应一个文本行检测区域;通过数值匹配方式,对多个文本识别结果进行处理,获得商品标签中的标签信息。采用本公开可以有效应对实际业务场景中多样化的标签版式分布情况,从而提高标签处理方法的可用性。
-
公开(公告)号:CN118966353A
公开(公告)日:2024-11-15
申请号:CN202410964262.3
申请日:2024-07-18
Applicant: 北京百度网讯科技有限公司
IPC: G06N5/04 , G06F16/532 , G06F16/583 , G06F16/58 , G06F16/9032
Abstract: 本公开提供了基于图像的模型训练方法、问答方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为:确定第一表格图像的风格参数;其中,风格参数用于表征第一表格图像的显示样式;基于第一表格图像的风格参数以及第一表格图像对应的第一问答信息,对预设模型进行训练,得到表格问答模型。
-
公开(公告)号:CN118840756A
公开(公告)日:2024-10-25
申请号:CN202410841220.0
申请日:2024-06-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/146 , G06V30/148 , G06V30/18 , G06V30/186 , G06V30/19 , G06N3/0455 , G06N3/0895
Abstract: 本公开提供了一种文本检测及文本检测模型训练方法、装置和设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于OCR等场景。文本预测方法包括:对目标图像进行特征提取,以获得所述目标图像的图像特征;所述目标图像中包含待检测文本;基于所述图像特征进行多个文本粒度的检测处理,以获得多种候选检测结果;所述多种候选检测结果与所述多个文本粒度一一对应;基于所述多种候选检测结果获取目标粒度的待处理检测结果;基于所述图像特征和所述待处理检测结果的目标位置特征进行分割处理,以获得所述待检测文本的所述目标粒度的目标检测结果。
-
公开(公告)号:CN116468816B
公开(公告)日:2024-04-16
申请号:CN202310342126.6
申请日:2023-03-31
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/00 , G06V10/25 , G06V10/774 , G06V10/82 , G06V10/40 , G06V10/77 , G06N3/08 , G06N3/0464
Abstract: 本公开提供了图像重建模型的训练方法、商品识别方法、装置及设备。本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市等场景。具体实现方案为:随机选取各样本图像的K个随机掩码区域及其对应的K个原始图像;对各样本图像的K个随机掩码区域进行随机掩码处理,得到各样本图像的经过随机掩码处理后的输入图像;将各样本图像的输入图像和K个随机掩码区域的检测框输入图像重建模型,得到各样本图像的K个预测图像;基于各样本图像的K个预测图像和K个原始图像,对图像重建模型进行训练,得到图像重建模型。根据本公开的方案,能够增强模型的细粒度特征表达能力,从而提升商品识别的准确性。
-
公开(公告)号:CN117275005A
公开(公告)日:2023-12-22
申请号:CN202311233516.6
申请日:2023-09-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/18 , G06V30/146 , G06N3/0455 , G06N3/08 , G06V10/82
Abstract: 本公开提供了一种文本检测、文本检测模型优化、数据标注的方法、装置,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于人工智能的内容生成等场景。实现方案为:获取包含文本的图像的图像特征,以及用于对定位文本进行提示的提示信息特征;对图像特征进行编码操作,以得到经编码的图像特征;基于经编码的图像特征与提示信息特征之间的相关性,确定用于解码操作的锚定框,锚定框用于在解码操作中提供与文本的位置相关的位置参考信息;以及基于经编码的图像特征与提示信息特征之间的注意力交互,以及锚定框提供的位置参考信息,执行解码操作以得到在图像中定位文本的检测框。
-
公开(公告)号:CN116935368A
公开(公告)日:2023-10-24
申请号:CN202310706632.9
申请日:2023-06-14
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/414 , G06N3/0464 , G06N3/08
Abstract: 本公开公开了一种深度学习模型训练方法、文本行检测方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可用于光学字符识别场景。具体实现方案为:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,其中,目标检测模型包括利用标注样本集训练得到。利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。
-
-
-
-
-
-
-