-
公开(公告)号:CN115601775A
公开(公告)日:2023-01-13
申请号:CN202211303281.9
申请日:2022-10-24
Applicant: 北京百度网讯科技有限公司(CN)
IPC: G06V30/414 , G06V30/18 , G06V30/16
Abstract: 本公开提供了一种主体检测框的显示方法,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取对目标对象采集的视频流中的帧图像序列;基于预设的第一抽取频率从所述帧图像序列中抽取显示帧图像,并基于预设的第二抽取率从所述帧图像序列中抽取检测帧图像;响应于从所述检测帧图像中确定出第二检测帧图像,针对第二显示帧图像中的任一个目标第二显示帧图像,基于所述目标第二显示帧图像的前一帧显示帧图像中的主体显示框,以及所述第二检测帧图像中的主体检测框,确定所述目标第二显示帧图像的中的主体显示框。本公开可以减少前后显示帧图像的主体显示框的偏移,减少画面的抖动,提升用户体验。
-
公开(公告)号:CN115578735A
公开(公告)日:2023-01-06
申请号:CN202211205551.2
申请日:2022-09-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本检测方法和文本检测模型的训练方法、装置,涉及人工智能领域,具体涉及计算机视觉、深度学习和图像处理等技术领域,可应用于OCR等场景。文本检测方法包括:提取文本图像的图像特征;采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;根据解码特征序列,预测得到多个预测结果;每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位置处的多个字符之间的关联信息;以及根据关联信息和分类信息,确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果。
-
公开(公告)号:CN115035351B
公开(公告)日:2023-01-06
申请号:CN202210838350.X
申请日:2022-07-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/774 , G06V30/148 , G06V30/19
Abstract: 本公开提供了一种基于图像的信息提取模型、方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取待提取的第一图像和待提取信息的类别;通过将所述第一图像和所述类别输入预先训练的信息提取模型,对所述第一图像进行信息提取,得到所述类别对应的文字信息。本公开的技术,能够有效地提高信息提取的效率。
-
公开(公告)号:CN115527069A
公开(公告)日:2022-12-27
申请号:CN202211316123.7
申请日:2022-10-26
Applicant: 北京百度网讯科技有限公司
Inventor: 姚锟
IPC: G06V10/764 , G06V10/774 , G06V20/68
Abstract: 本公开提供一种物品识别和物品识别系统构建方法及装置,涉及人工智能技术领域,具体涉及机器学习或深度学习、计算机视觉、图像识别、图像分类等技术领域,可应用于物品识别、物品分类等场景下。具体实现方案包括:获取目标图像;将目标图像输入物品二分类模型进行图像识别,得到物品识别结果;响应于确定物品识别结果指示目标图像包含物品图像,将目标图像输入第一物品识别模型,得到物品图像对应的第一物品类型。本公开可以提高物品识别过程中的物品召回率、以及提高物品识别结果的准确度。
-
公开(公告)号:CN115512365A
公开(公告)日:2022-12-23
申请号:CN202211222031.2
申请日:2022-10-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/764 , G06N7/00
Abstract: 本公开提供了目标检测模型的训练、目标检测方法、装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体方案为:获取目标检测模型以及训练样本集,训练样本集包括第一样本图像以及第二样本图像;第一样本被标注有第一目标框以及第一目标类别,第二样本被标注有第二目标框以及第二目标类别,第一目标类别不同于第二目标类别,目标检测模型包括第一检测头网络以及第二检测头网络,第一检测头网络基于第一样本图像集预训练;对第二检测头网络进行模型训练,以更新第二检测头的模型参数,模型训练包括基于第二样本图像进行的第一子模型训练。本方案能使模型快速具备对新类别的识别能力。
-
公开(公告)号:CN115471717A
公开(公告)日:2022-12-13
申请号:CN202211142519.4
申请日:2022-09-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/82
Abstract: 本公开提供了模型的半监督训练、分类方法装置、设备、介质及产品,涉及人工智能领域,尤其涉及计算机视觉、深度学习领域。具体实现方案为:采用有标签图像样本对待训练的图像分类模型进行训练,获得第一分类模型,所述第一分类模型为第一次训练后的分类模型;确定两个无标签图像样本为一组,获得目标图像样本组;以所述目标图像样本组中两个无标签图像样本互为标签对所述第一分类模型进行训练,获得第二分类模型,所述第二分类模型为第二次训练后的分类模型。
-
公开(公告)号:CN114792423B
公开(公告)日:2022-12-09
申请号:CN202210552234.1
申请日:2022-05-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档图像的处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对文档图像进行处理时,确定出文档图像中感兴趣的实体词所在的文本区域的位置信息,并对该文档图像中与该位置信息对应的图像区域进行文字识别,以得到该感兴趣的实体词在该文档图像中所对应的文本内容。由此,直接对感兴趣的实体词在文档图像上所对应的图像区域进行文字识别,以得到感兴趣的实体词在文档图像中所对应的文本内容,降低了从文档图像中获取感兴趣的文本内容的复杂度,并且提升了从文档图像中确定出了感兴趣的文本内容的准确度。
-
公开(公告)号:CN115359471A
公开(公告)日:2022-11-18
申请号:CN202210835360.8
申请日:2022-07-15
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/146 , G06V10/82
Abstract: 本公开提供了一种图像处理及联合检测模型训练方法、装置、设备和存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR、车牌脱敏等场景。图像处理方法包括:通过将待处理图像输入联合检测模型进行图像处理,同步得到车辆所在的第一区域和车辆目标部件的第二区域;从第二区域中获取位于所述第一区域内的第三区域;根据所述第三区域确定包括车牌的第四区域。本公开可以提高车牌定位的准确度。
-
公开(公告)号:CN115130473A
公开(公告)日:2022-09-30
申请号:CN202210419163.8
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/416
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取第一图像中第一文档的第一特征,所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的;对所述第一特征进行语义增强,得到所述第一文档的第二特征;基于所述第二特征对所述第一文档进行关键信息抽取。
-
公开(公告)号:CN113313113B
公开(公告)日:2022-09-23
申请号:CN202110651962.3
申请日:2021-06-11
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了证件信息获取方法、装置、设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域。具体实现方案为:获取目标证件图像;对目标证件图像进行文本识别,确定文本识别结果;根据文本识别结果,在目标证件图像中确定至少一个预设类型的字段所处的目标区域;对目标区域进行字符识别,确定字符识别结果;融合文本识别结果和字符识别结果,确定以及输出目标证件图像的文本信息。本实现方式能够分别识别文本和字符,提高文本识别的准确度。
-
-
-
-
-
-
-
-
-