-
公开(公告)号:CN112560862A
公开(公告)日:2021-03-26
申请号:CN202011495211.9
申请日:2020-12-17
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了文本识别方法、装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取包括文本信息的图像,所述文本信息包括M个字符,M为大于1的正整数;对所述图像进行文本识别,得到所述M个字符的字符信息;基于所述M个字符的字符信息,识别每个字符的阅读指向信息,所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符;基于所述M个字符的阅读指向信息对所述M个字符进行排序,得到所述文本信息的文本识别结果。根据本申请的技术,解决了OCR技术中存在的文本识别效果比较差的问题,提高了图像中文本的识别效果。
-
公开(公告)号:CN112508005A
公开(公告)日:2021-03-16
申请号:CN202011526687.4
申请日:2020-12-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取模板图像,模板图像包括至少一个感兴趣区域;确定各感兴趣区域对应的第一特征图;获取目标图像;确定目标图像的第二特征图;根据各第一特征图和第二特征图,确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本,能够满足用户的定制化需求。
-
公开(公告)号:CN102930262A
公开(公告)日:2013-02-13
申请号:CN201210350550.7
申请日:2012-09-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供了一种从图像中提取文字行的方法及装置,其中从图像中提取文字行的方法包括:A.对图像进行二值化处理,以得到所述图像的各个连通域;B.对不满足第一统计特征的连通域进行过滤,其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征;C.从过滤后的各个连通域中提取所述图像中的文字行。通过上述方式,本发明可以大大提高从图像中提取的文字行的准确性。
-
公开(公告)号:CN102799850A
公开(公告)日:2012-11-28
申请号:CN201210227196.9
申请日:2012-06-30
Applicant: 北京百度网讯科技有限公司
Inventor: 刘经拓
IPC: G06K7/10
Abstract: 本发明提供了一种条形码识别方法和装置,其中方法包括:对用户终端获取到的条形码图像进行二值化;对二值化后的条形码图像进行横向投影,根据横向投影值的分布状况定位出字符区域;将字符区域进行纵向投影,根据纵向投影值的分布状况定位出各字符;对各字符进行文字识别,并将文字识别结果进行组合得到条形码识别结果。本发明将文字识别技术引入条形码的识别,采用识别条形码下方的字符的方式得到条形码的识别结果,而不是通过计算黑白条宽度进行解码的方式,对于拍摄条件有限的用户终端提高了条形码识别的成功率。
-
公开(公告)号:CN112784829B
公开(公告)日:2024-05-21
申请号:CN202110084184.4
申请日:2021-01-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/0985
Abstract: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。
-
公开(公告)号:CN111767858B
公开(公告)日:2024-03-22
申请号:CN202010611133.8
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V40/16 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本申请公开了图像识别方法、装置、设备和计算机存储介质。涉及人工智能技术领域,尤其涉及图像处理技术领域。具体实现方案为:对人脸图像进行器官识别,并在该人脸图像中标注人脸五官的位置,得到标注的人脸图像;将该标注的人脸图像输入主干网络模型进行特征提取,获得该主干网络模型不同层次的卷积神经网络层输出的该标注的人脸图像的瑕疵特征;将位于人脸图像同一区域的不同层次的该瑕疵特征进行融合,获得该人脸图像的瑕疵识别结果。本申请实施例能够提高人脸瑕疵的识别准确性和识别效率。
-
公开(公告)号:CN112560862B
公开(公告)日:2024-02-13
申请号:CN202011495211.9
申请日:2020-12-17
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了文本识别方法、装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取包括文本信息的图像,所述文本信息包括M个字符,M为大于1的正整数;对所述图像进行文本识别,得到所述M个字符的字符信息;基于所述M个字符的字符信息,识别每个字符的阅读指向信息,所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符;基于所述M个字符的阅读指向信息对所述M个字符进行排序,得到所述文本信息的文本识别结果。根据本申请的技术,解决了OCR技术中存在的文本识别效果比较差的问题,提高了图像中文本的识别效果。
-
公开(公告)号:CN116363331A
公开(公告)日:2023-06-30
申请号:CN202310347153.2
申请日:2023-04-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像生成方法、装置、设备、存储介质以及程序产品,图像处理、人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。具体实现方案为:根据预设场景信息的场景面片,确定对齐位姿,场景面片是按照第一图像生成模式处理预设场景信息和预设相机位姿得到的,对齐位姿表征场景面片从第一图像生成模式转换至第二图像生成模式的调整位姿;按照第一图像生成模式处理对齐位姿和预设场景信息,得到与第二图像生成模式相匹配的场景图像;根据场景图像和虚拟形象图像,生成目标图像,虚拟形象图像是按照第二图像生成模式处理预设虚拟形象信息得到的。
-
公开(公告)号:CN116229583A
公开(公告)日:2023-06-06
申请号:CN202310500318.5
申请日:2023-05-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供了驱动信息生成、驱动方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。具体实现方案为:根据目标对象关节点在目标时间段中至少一个时刻的目标对象关节点二维位置信息,确定目标对象关节点在至少一个时刻的目标对象关节点三维位置信息,得到目标对象关节点三维位置序列,目标对象关节点二维位置信息是基于多个视角,在至少一个时刻,针对目标对象的关节点采集得到的;以及根据目标对象关节点三维位置序列,生成与目标对象在目标时间段的动作相对应的驱动信息。
-
公开(公告)号:CN116206370A
公开(公告)日:2023-06-02
申请号:CN202310500623.4
申请日:2023-05-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供了驱动信息生成、驱动方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等技术领域。具体实现方案为:确定第一局部骨骼在目标时间段中至少一个时刻的第一局部骨骼旋转角度,第一局部骨骼表征对象的第一关节点和第二关节点之间的骨骼;以及根据全局骨骼旋转角度和第一局部骨骼旋转角度,生成与对象在目标时间段的动作相对应的驱动信息,全局骨骼旋转角度根据对象的对象关节点在至少一个时刻的关节点位置信息确定。
-
-
-
-
-
-
-
-
-