-
公开(公告)号:CN113313113A
公开(公告)日:2021-08-27
申请号:CN202110651962.3
申请日:2021-06-11
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了证件信息获取方法、装置、设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域。具体实现方案为:获取目标证件图像;对目标证件图像进行文本识别,确定文本识别结果;根据文本识别结果,在目标证件图像中确定至少一个预设类型的字段所处的目标区域;对目标区域进行字符识别,确定字符识别结果;融合文本识别结果和字符识别结果,确定以及输出目标证件图像的文本信息。本实现方式能够分别识别文本和字符,提高文本识别的准确度。
-
公开(公告)号:CN110619670A
公开(公告)日:2019-12-27
申请号:CN201910738283.2
申请日:2019-08-12
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/60
Abstract: 本发明公开了人脸互换方法、装置、计算机设备及存储介质,其中方法可包括:针对包含M张人脸的待处理图像中每两张需要进行人脸互换的第一人脸和第二人脸,M为大于一的正整数,分别进行以下处理:分别提取出第一人脸和第二人脸中的人脸关键点;根据提取出的人脸关键点分别对第一人脸和第二人脸进行三角剖分;基于三角剖分结果对第一人脸和第二人脸进行人脸互换。本发明所述方案的实现方式更为灵活,并提升了换脸效果,增强了互动性和趣味性,且具有很高的准确性等。
-
公开(公告)号:CN110446066A
公开(公告)日:2019-11-12
申请号:CN201910802155.X
申请日:2019-08-28
Applicant: 北京百度网讯科技有限公司
IPC: H04N21/234 , H04N21/233 , H04N21/43 , H04N21/81 , G06N3/04 , G06N3/08 , G10L15/02 , G10L15/26
Abstract: 本公开的实施例公开了用于生成视频的方法和装置。该方法的一具体实施方式包括:获取上一帧图像和用于生成当前帧图像的底板;确定与待输出语音信息对应的当前音素,基于当前帧图像的底板,从预设的嘴形库中获取与当前音素对应的至少两个嘴形图像,其中,嘴形库包括从视频的连续图像中得到的多张底板和与底板对应的不同音素的嘴形图像;从所获取的至少两个嘴形图像中确定出与上一帧图像中的嘴形图像相匹配的嘴形图像;将所确定出的嘴形图像插入当前帧图像的底板,生成当前帧图像。该实施方式通过将相邻帧图像的嘴形相匹配,从而保证了相邻帧图像的中人像嘴形的连贯性,提高了生成的视频的质量。
-
公开(公告)号:CN110443321A
公开(公告)日:2019-11-12
申请号:CN201910751766.6
申请日:2019-08-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了模型结构调整方法及装置,涉及计算机领域。具体实现方案为:利用测试数据对模型训练平台上部署的待测模型结构进行测试,获得测试结果;根据测试结果和测试耗时,获得对待测模型结构的回报信息;测试耗时为利用测试数据对测试终端上部署的待测模型结构进行测试的耗时,根据预设映射关系获得;预设映射关系包括待测模型结构、测试数据和测试耗时之间的对应关系;根据回报信息调整待测模型结构,得到优化的模型结构。
-
公开(公告)号:CN110378346A
公开(公告)日:2019-10-25
申请号:CN201910515396.6
申请日:2019-06-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供一种建立文字识别模型的方法,所述方法包括:获取包含各文字图像以及各文字图像中所包含文字的识别结果的训练数据;确定包含构建模型结构的卷积神经网络和循环神经网络的各参数以及各参数的取值范围的搜索空间;分别从卷积神经网络以及循环神经网络的各参数的取值范围中进行采样,在利用各参数取值的采样结果得到模型结构序列之后,根据模型结构序列构建对应的模型结构;依据训练数据获取模型结构的奖励值,并确定奖励值是否满足预设条件,若否,则转至执行构建模型结构的步骤,直至模型结构的奖励值满足预设条件,输出模型结构作为最终模型结构;利用训练数据对最终模型结构进行训练,直至最终模型结构收敛,得到文字识别模型。
-
公开(公告)号:CN116168132B
公开(公告)日:2023-12-22
申请号:CN202211599763.3
申请日:2022-12-12
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了街景重建模型获取及街景重建方法、装置、设备及介质,涉及增强现实、虚拟现实、计算机视觉以及深度学习等人工智能领域,可应用于元宇宙、智慧城市以及自动驾驶等场景。其中的街景重建模型获取方法可包括:获取对应于不同街道的街景图像,组成第一图像集;对所选取的第一神经渲染模型进行表达能力优化,得到第二神经渲染模型;利用第一图像集中的街景图像对第二神经渲染模型进行预训练,将预训练后的第二神经渲染模型作为街景重建模型,用于利用街景重建模型确定出待重建的相机位姿对应的街景图像。应用本公开所述方案,可提升重建结果的准确性等。
-
公开(公告)号:CN116206035B
公开(公告)日:2023-12-01
申请号:CN202310067248.9
申请日:2023-01-12
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了人脸重建方法、装置、电子设备以及存储介质,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于元宇宙、虚拟数字人等场景。具体实现方案为:基于人脸模型当前的第一参数集合,采用光栅化方式得到第一渲染图,并采用光线追踪方式得到第二渲染图;基于第一渲染图与人脸图像,得到第一损失;基于第二渲染图与人脸图像,得到第二损失;基于第一损失以及第二损失,更新第一参数集合;基于符合第一预设条件,则将第一参数集合作为该人脸图像对应的人脸模型的优化参数集合。本公开实施例可提升人脸模型对应的3D人脸与人脸图像相似度。
-
-
公开(公告)号:CN112508005B
公开(公告)日:2023-11-17
申请号:CN202011526687.4
申请日:2020-12-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取模板图像,模板图像包括至少一个感兴趣区域;确定各感兴趣区域对应的第一特征图;获取目标图像;确定目标图像的第二特征图;根据各第一特征图和第二特征图,确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本,能够满足用户的定制化需求。
-
公开(公告)号:CN116912402A
公开(公告)日:2023-10-20
申请号:CN202310798900.4
申请日:2023-06-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种人脸重建的方法,涉及计算机视觉技术领域,尤其涉及人脸重建装置、电子设备、存储介质。具体实现方案为:根据目标人脸的多个视角的人脸图像,生成人脸点云模型;基于人脸图像、人脸点云模型确定初始三维人脸模型的模型变换参数,并基于模型变换参数对初始三维人脸模型进行变换,得到与目标人脸相对应的三维人脸模型。
-
-
-
-
-
-
-
-
-