-
公开(公告)号:CN113656582A
公开(公告)日:2021-11-16
申请号:CN202110945344.X
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像检索方法、装置、设备和介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理和图像识别等场景。该图像检索方法包括:将待检测图像输入图像识别神经网络模型,获取图像识别神经网络模型输出的图像特征向量;基于待检测图像的图像特征向量,从数据库中确定待检测图像的第一匹配图像集。
-
公开(公告)号:CN110032969B
公开(公告)日:2021-11-05
申请号:CN201910289292.8
申请日:2019-04-11
Applicant: 北京百度网讯科技有限公司
Abstract: 根据本公开的示例实施例,提供了一种用于检测图像中的文本区域的方法、装置、设备以及介质。方法包括基于图像的特征表示来检测图像中的一个或多个文本区域,其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中的一段文本的仅一部分。方法还包括基于第一文本区域的特征块来确定第一文本区域的角点的调整值,并且基于第一文本区域的角点的调整值来将第一文本区域调整为第二文本区域,其中第二文本区域比第一文本区域覆盖一段文本的更多部分。本公开的实施例在通用文本检测模块的基础上增加一个长文本检测提高模块,能够更完整地检测出图像中的长文本,从而提高图像文本检测的准确率。
-
公开(公告)号:CN113361247A
公开(公告)日:2021-09-07
申请号:CN202110700122.1
申请日:2021-06-23
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/189 , G06F16/35 , G06F16/55 , G06F16/583 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像的图像特征图和语义特征图;对图像特征图和语义特征图进行特征融合,以获得融合特征图;以及基于融合特征图,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的图像特征和语义特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升文档版面分析的效果,从而能够提升进行文档版面分析的用户的用户体验。
-
公开(公告)号:CN113343997A
公开(公告)日:2021-09-03
申请号:CN202110547936.6
申请日:2021-05-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了光学字符识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域。具体实现方案为:根据多帧图像以增量式的方式生成多个第一拼接图像;获取一个待识别的第一拼接图像;根据已识别的第一拼接图像对应的识别结果对待识别的第一拼接图像进行切分,得到第二拼接图像;对第二拼接图像进行光学字符识别,得到第二拼接图像对应的识别结果;以及将已识别的第一拼接图像对应的识别结果和第二拼接图像对应的识别结果合并,得到待识别的第一拼接图像对应的识别结果。无需整图进行识别,有效地将连续帧间的文字组织在一起,增强了识别效果,可应用于图像识别场景下的文字识别。
-
公开(公告)号:CN110166560B
公开(公告)日:2021-08-20
申请号:CN201910441116.1
申请日:2019-05-24
Applicant: 北京百度网讯科技有限公司
IPC: H04L29/08
Abstract: 本发明实施例提出一种服务配置方法、装置、设备及存储介质,其中方法包括:根据服务对应的各个垂类的功能是否开放的信息,设置所述服务对应的各个垂类的有效性标识;其中,在所述垂类的功能开放的情况下,设置所述垂类的有效性标识的取值为有效;在所述垂类的功能不开放的情况下,设置所述垂类的有效性标识的取值为无效;将所述服务对应的各个垂类的有效性标识写入配置文件;生成包含所述配置文件的部署包。本发明实施例能够节约维护成本。
-
公开(公告)号:CN113255694A
公开(公告)日:2021-08-13
申请号:CN202110555863.5
申请日:2021-05-21
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了训练图像特征提取模型和提取图像特征的方法、装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理场景下。具体实现方案为:获取样本集和初始图像特征提取模型;从样本集中选取样本,执行如下训练步骤:将选取的样本的物品图像输入主干模型,得到图像特征向量;将图像特征向量分别与选取的样本的目标类别对应的预定数目的子中心向量计算相似度,并将相似度最大值作为目标类别的相似度;基于目标类别的相似度计算损失值;若损失值小于预定阈值,则确定出初始图像特征提取模型训练完成。通过该实施方式能够提高特征提取模型的训练速度和准确度,减少对精标数据的依赖。
-
公开(公告)号:CN110363810B
公开(公告)日:2021-07-16
申请号:CN201910515574.5
申请日:2019-06-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供一种建立图像检测模型的方法:获取训练数据;确定搜索空间;根据搜索空间构建当前网络结构序列并生成当前神经网络,依据训练数据获取当前神经网络的第一评估值;根据搜索空间随机替换当前网络结构序列中一个参数的值,得到待选网络结构序列并生成待选神经网络,依据训练数据获取待选神经网络的第二评估值;确定第一评估值与第二评估值是否满足预设条件,若否则将待选网络结构序列作为当前网络结构序列,并转至执行得到待选网络结构序列的步骤,以此循环进行,直至当前神经网络的第一评估值与待选神经网络的第二评估值满足预设条件,输出当前神经网络作为最终神经网络;利用训练数据训练最终神经网络,得到图像检测模型。
-
公开(公告)号:CN112966522A
公开(公告)日:2021-06-15
申请号:CN202110235776.1
申请日:2021-03-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种图像分类方法,装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习方面。具体实现方案为:将待分类的文档图像输入到预先训练好的神经网络模型中,通过神经网络模型得到待分类的文档图像的各个文本框的特征子图;将各个文本框的特征子图与各个文本框的文本信息对应的语义特征和位置信息对应的位置特征输入至多模态特征融合模型中,通过多模态特征融合模型将三者融合为各个文本框对应的多模态特征;基于各个文本框对应的多模态特征对待分类的文档图像进行分类。本申请实施例能够很好地利用文档图像中存在的语义特征和位置特征,最终达到提升文档图像的分类精度的目的。
-
公开(公告)号:CN111914628A
公开(公告)日:2020-11-10
申请号:CN202010564107.4
申请日:2020-06-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种人脸识别模型的训练方法和装置,涉及人工智能、深度学习及计算机视觉技术领域,具体涉及人脸识别技术领域。具体实现方案为:获取第一训练图像,第一训练图像为未遮挡人脸图像,并获取多个遮挡物图像后,将多个遮挡物图像分别融合至未遮挡人脸图像,以生成多个第二训练图像,将第一训练图像和第二训练图像输入人脸识别模型,以对人脸识别模型进行训练。由此,采用未遮挡人脸图像和融合得到的多个第二训练图像对人脸识别模型进行训练,使得训练后的人脸识别模型能够同时准确识别出未遮挡人脸图像和遮挡人脸图像,解决了现有的人脸识别模型对存在遮挡物的人脸图像识别时精确率较低,甚至无法识别存在遮挡物的人脸图像的技术问题。
-
公开(公告)号:CN111666826A
公开(公告)日:2020-09-15
申请号:CN202010414784.8
申请日:2020-05-15
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开的实施例涉及一种用于处理图像方法、装置、电子设备和计算机可读存储介质,涉及图像处理领域。该方法可以包括对输入图像中的对象的目标部位进行检测。该方法进一步包括基于目标部位的检测结果确定目标部位的关键点的权重信息,权重信息指示关键点被遮挡的概率。此外,该方法可以进一步包括基于检测结果和权重信息,确定对象的身份信息。本公开的技术方案可以快速高效且低成本地获取被监控对象的身份信息,从而降低图像识别的时间和人力成本。
-
-
-
-
-
-
-
-
-