-
公开(公告)号:CN117312849A
公开(公告)日:2023-12-29
申请号:CN202311220870.5
申请日:2023-09-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F18/214 , G06F40/197
Abstract: 本公开提供了文档版式检测模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域。具体实现方案为:获取第一训练数据、初始的第一文档版式检测模型、以及第二文档版式检测模型;第二文档版式检测模型的参数,根据包括多个样本文档图像的真标签的第二训练数据确定;将第一训练数据中的样本文档图像输入第二文档版式检测模型,获取版式预测结果;根据版式预测结果以及第一训练数据中该样本文档图像的弱标签,确定伪标签;进而结合伪标签对第一文档版式检测模型进行训练处理。
-
公开(公告)号:CN113642584B
公开(公告)日:2023-11-28
申请号:CN202110934110.5
申请日:2021-08-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148
Abstract: 本公开公开了一种文字识别方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取针对文档连续扫描得到的多个图像序列;基于多个图像序列进行图像拼接,得到对应的多个连续拼接图像帧,其中,两两连续拼接图像帧之间存在重叠区域;基于多个连续拼接图像帧进行文字识别,得到对应的多个识别结果;以及基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域,对多个识别结果进行去重处理,得到针对文档的文字识别结果。
-
-
公开(公告)号:CN112508005B
公开(公告)日:2023-11-17
申请号:CN202011526687.4
申请日:2020-12-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取模板图像,模板图像包括至少一个感兴趣区域;确定各感兴趣区域对应的第一特征图;获取目标图像;确定目标图像的第二特征图;根据各第一特征图和第二特征图,确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本,能够满足用户的定制化需求。
-
公开(公告)号:CN113313022B
公开(公告)日:2023-11-10
申请号:CN202110587936.9
申请日:2021-05-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/19 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/044
Abstract: 本公开提供了一种文字识别模型的训练方法和识别图像中文字的方法、装置、电子设备和存储介质,应用于人工智能技术领域,具体应用于计算机视觉和深度学习技术领域,可应用于图像识别场景下。文字识别模型的训练方法的具体实现方案为:以第一目标图像作为第一文字识别模型的输入,获得第一特征图;以样本图像作为第二文字识别模型的输入,获得第二特征图,其中,第二文字识别模型以第一文字识别模型作为初始模型;基于第一特征图和第二特征图的差异,确定第一损失值;以及基于第一损失值,对第二文字识别模型进行训练。其中,第一目标图像与样本图像包括相同的文字,且第一目标图像以目标格式表示文字。
-
公开(公告)号:CN113762109B
公开(公告)日:2023-11-07
申请号:CN202110970305.5
申请日:2021-08-23
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/413 , G06V30/414 , G06V10/82
Abstract: 本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。
-
公开(公告)号:CN113255664B
公开(公告)日:2023-10-20
申请号:CN202110576183.1
申请日:2021-05-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/146
Abstract: 本公开提供了图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及计算机视觉和深度学习等人工智能技术领域,可应用于图像识别场景下。该方法的一具体实施方式包括:确定待处理图像在不同分辨率下构成待矫正对象的像素点的三维坐标,得到三维预测坐标后,根据该三维预测坐标确定该待矫正对象的表面扭曲参数,最终根据该三维预测坐标和该表面扭曲参数生成该待矫正对象的平面图像。该实施方式基于不同分辨率的待处理图像进行三维坐标预测,以更精准的确定待矫正对象的表面扭曲参数,实现更为精准的图像扭曲矫正,提升图像识别、矫正结果的质量。
-
公开(公告)号:CN116843963A
公开(公告)日:2023-10-03
申请号:CN202310781222.0
申请日:2023-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/80 , G06V10/44 , G06V10/82 , G06N3/045
Abstract: 本公开提供一种图像识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市的场景下。具体实现方案包括:对目标图像进行向量化,得到至少两个第一特征向量;对第一特征向量按照自注意力网络模型中编码模块的序列和第一融合规则,依次通过每个编码模块进行编码,得到第二特征向量;编码模块包括至少两个,第一融合规则包括:在至少一组相邻的两个编码模块之间对前一个编码模块编码得到的特征向量进行融合,融合后的特征向量数量小于前一个编码模块编码得到的特征向量数量,根据第二特征向量确定目标图像的识别结果。本公开可以显著减少图像识别过程对计算资源的耗费。
-
公开(公告)号:CN116824609A
公开(公告)日:2023-09-29
申请号:CN202310791204.0
申请日:2023-06-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19 , G06V10/82
Abstract: 本公开提供了一种文档版式检测方法、装置和电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧政务等场景。实现方案为:获取待检测文档的图像;提取图像的多个尺度的特征图;基于多个尺度的特征图,执行全局注意力编码操作;基于全局注意力编码操作的结果,针对每个尺度的特征图生成用于指示至少一个特征点中的每个特征点的候选检测框,以获得与多个尺度的特征图有关的多个候选检测框;基于多个候选检测框中达到预定置信度的候选检测框,确定用于执行全局注意力解码操作的查询特征并执行全局注意力解码操作;以及基于全局注意力解码操作的结果,确定待检测文档中包括的至少一种版式的类别。
-
公开(公告)号:CN111291218B
公开(公告)日:2023-09-08
申请号:CN202010065820.4
申请日:2020-01-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种视频融合方法、装置、电子设备及可读存储介质,涉及计算机视觉技术。具体实现方案为根据用户视频的各视频帧图像和模板视频的各视频帧图像,获得用户视频的各视频帧图像中人脸图像的预测三维人脸网格;根据用户视频的各视频帧图像中人脸图像的用户三维人脸网格的用户纹理和模板视频的各视频帧图像中人脸图像的模板三维人脸网格的模板纹理,获得预测三维人脸网格的预测纹理;根据预测三维人脸网格、预测纹理和用户人脸姿态,以及模板人脸姿态,获得预测三维人脸网格的渲染人脸图像;对渲染人脸图像和模板视频的各视频帧图像进行融合处理,以获得融合之后的各融合视频帧图像,并对其进行合成处理获得融合视频。
-
-
-
-
-
-
-
-
-