-
公开(公告)号:CN102930262A
公开(公告)日:2013-02-13
申请号:CN201210350550.7
申请日:2012-09-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供了一种从图像中提取文字行的方法及装置,其中从图像中提取文字行的方法包括:A.对图像进行二值化处理,以得到所述图像的各个连通域;B.对不满足第一统计特征的连通域进行过滤,其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征;C.从过滤后的各个连通域中提取所述图像中的文字行。通过上述方式,本发明可以大大提高从图像中提取的文字行的准确性。
-
公开(公告)号:CN102831200A
公开(公告)日:2012-12-19
申请号:CN201210279367.2
申请日:2012-08-07
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供了一种基于图像文字识别的商品推送方法和装置,其中方法包括:S1、获取待识别图像中的文字区域;S2、对所述文字区域进行文字识别;S3、利用识别结果查询商品库获得识别结果对应的商品信息;S4、推送包含所述商品信息的商品查询列表。通过本发明用户能够通过上传图像的方式直接获取到商品信息,而无需人工通过搜索引擎从大量的搜索结果中搜寻商品信息,大大减少了用户操作,实现更加方便。
-
公开(公告)号:CN112529180B
公开(公告)日:2024-05-24
申请号:CN202011473801.1
申请日:2020-12-15
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/08
Abstract: 本申请公开了模型蒸馏的方法和装置,涉及人工智能技术领域,具体涉及深度学习和计算机视觉技术领域。具体实施方式包括:获得教师模型对应的批量教师特征和学生模型对应的批量学生特征;确定批量教师特征对应的教师相似度集合和批量学生特征对应的学生相似度集合;基于图像对应的相差值,确定该图像的特征的损失值的权重;对批量图像中各个图像的特征的损失值进行加权,利用加权结果训练学生模型。本申请可以利用学生模型和教师模型之间特征相似度的相差值,确定出损失值的权重,从而对模型进行准确地蒸馏。通过本申请的蒸馏过程可以提高模型的检测能力,有助于降低执行设备的延时,减少内存等计算资源的占用和消耗。
-
公开(公告)号:CN111832568B
公开(公告)日:2024-01-12
申请号:CN202010536808.7
申请日:2020-06-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/148 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种车牌识别方法,涉及人工智能、计算机视觉以及深度学习技术领域,具体涉及图像识别技术领域。具体实现方案为:通过获取车牌区域的特征图的多个特征向量;将多个特征向量,按照第一顺序依次输入第一循环神经网络进行编码,以得到每一个特征向量的第一编码;将多个特征向量,按照第二顺序依次输入第二循环神经网络进行编码,以得到每一个特征向量的第二编码;根据每一个特征向量的第一编码和每一个特征向量的第二编码,以生成多个特征向量的多个目标编码;以及对多个目标编码进行解码,以得到车牌中的多个字符。该方法中对提取的车牌区域的特征图包含的多个特征向量,分别采用循环神经网络进行正反向编码,从而使得
-
公开(公告)号:CN113362543B
公开(公告)日:2023-10-31
申请号:CN202110558542.0
申请日:2021-05-21
Applicant: 北京百度网讯科技有限公司
IPC: G07G1/00 , G07G1/01 , G07G1/12 , G01G19/414 , G01G19/52 , G06V20/60 , G06V10/762 , G06V10/764
Abstract: 本公开提供了结算方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于图像识别场景下。具体实现方案为:通过摄像头采集目标物品的图像并通过称重台获取目标物品的重量;对目标物品的图像进行识别,获取图像中目标物品对应的特征;根据目标物品对应的特征与预先确定的至少一个物品类别对应的聚类中心,确定目标物品所属的目标类别;根据目标物品对应的特征与目标类别下至少一个子类别物品对应的特征,确定目标物品所属的目标子类别;根据目标物品的目标子类别及目标物品的重量,对目标物品进行结算。由此,提高了目标物品的结算效率和准确性,降低了结算的人力成本。
-
公开(公告)号:CN113962845B
公开(公告)日:2023-08-29
申请号:CN202110985605.0
申请日:2021-08-25
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理装置、电子设备以及存储介质,涉及人工智能领域,尤其涉及计算机视觉和深度学习领域,可应用于人脸图像处理和人脸识别等场景。具体实现方案为:根据第一目标图像和第二目标图像,生成待处理图像,待处理图像中对象的身份信息与第一目标图像中对象的身份信息匹配;根据第二目标图像和待处理图像,生成解耦图像集,解耦图像集包括与待处理图像中对象的头部区域对应的头部解耦图像和与待处理图像中对象相关的待修复信息对应的修复解耦图像;根据解耦图像集,生成融合图像,融合图像中对象的身份信息和纹理信息分别与待处理图像中对象的身份信息和纹理信息匹配,与融合图像中对象相关的待修复信息已被修复。
-
公开(公告)号:CN111782840B
公开(公告)日:2023-08-22
申请号:CN202010616632.6
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/532 , G06F16/583 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08 , G06V10/70 , G06N5/045
Abstract: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括节点特征和边特征;基于上述节点特征和边特征,对节点特征进行更新,以得到更新视觉图;基于输入问题,确定问题特征;对更新视觉图和问题特征进行融合处理,以得到融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
公开(公告)号:CN116597454A
公开(公告)日:2023-08-15
申请号:CN202310597526.1
申请日:2023-05-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。图像处理方法包括:对目标图像进行文本识别,得到多个文本区域和其各自的文本内容;提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征;基于多个第一视觉特征将多个第一文本特征融合,以得到多个第一文本融合特征;基于多个第一文本特征将多个第一视觉特征融合,以得到多个第一视觉融合特征;基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。
-
公开(公告)号:CN114494782B
公开(公告)日:2023-08-08
申请号:CN202210096259.5
申请日:2022-01-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/44 , G06V10/74 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本公开提供了一种图像处理方法、模型训练方法、相关装置及电子设备,涉及深度学习、计算机视觉等人工智能技术领域。具体实现方案为:获取M个第一图像;基于第一网络对所述M个第一图像分别进行特征提取,得到M个第一特征图;基于所述M个第一特征图,确定所述M个第一图像一一对应的M个第一图像特征;基于第二网络对所述M个第一图像特征分别进行特征提取,得到M个第一目标分类特征,所述第二网络的网络结构与所述第一网络的网络结构不同;基于所述M个第一目标分类特征进行图像处理,得到所述M个第一图像的M个第一图像处理结果。
-
公开(公告)号:CN114821622B
公开(公告)日:2023-07-21
申请号:CN202210234230.9
申请日:2022-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:获取待检测图像的视觉编码特征;从待检测图像中提取多组多模态特征,其中,每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息;基于视觉编码特征、待抽取属性以及多组多模态特征,从多组多模态特征包括的第一文本信息中,获取与待抽取属性匹配的第二文本信息,待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取,提高了抽取效率。
-
-
-
-
-
-
-
-
-