-
公开(公告)号:CN113656668B
公开(公告)日:2022-10-11
申请号:CN202110955328.9
申请日:2021-08-19
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/908
Abstract: 本公开提供了一种用于多模态信息库的检索方法、管理方法,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于图像识别和图像搜索等场景下。实现方案为:响应于接收到包括第一模态信息的检索信息,使用第一多模态特征提取模块,从检索信息的第一模态信息中提取检索信息的第一模态特征;基于检索信息的第一模态特征与多条目标信息中的每条目标信息的第一模态特征和第二模态特征中的每一个的相似度,选择多条目标信息中的第一组目标信息;以及基于第一组目标信息,生成检索结果。
-
公开(公告)号:CN115018992A
公开(公告)日:2022-09-06
申请号:CN202210760912.3
申请日:2022-06-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种发型模型的生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为增强现实AR、虚拟现实VR、计算机视觉、增强现实、深度学习等技术领域,可应用于虚拟形象、元宇宙等场景。该方法包括:根据目标对象的头部图像进行发丝模型建模,得到初始发丝模型;根据所述初始发丝模型中的发丝顶点,生成发型网格模型;对所述发型网格模型中的表面进行优化,得到目标对象的发型模型。通过上述技术方案能够提高发型渲染效率。
-
公开(公告)号:CN110826507B
公开(公告)日:2022-08-23
申请号:CN201911096216.1
申请日:2019-11-11
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种人脸检测方法、装置、设备及存储介质,涉及计算机视觉技术领域。具体实现方案为:由用户终端基于用户终端的操作系统,对从图像采集器获取的原始图像进行处理得到目标图像;采用人脸识别深度学习模型对所述目标图像进行处理,得到所述目标图像中的人脸检测结果;其中所述人脸识别深度学习模型是基于跨平台编程语言实现的。本申请的技术方案,能够针对不同的操作系统,可支持跨平台编程语言的人脸检测操作,从而保证使用任何操作系统的用户终端都可正常使用应用程序中与人脸相关的功能。
-
公开(公告)号:CN114399769B
公开(公告)日:2022-08-02
申请号:CN202210279539.X
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06V10/764 , G06N3/08
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN114612651A
公开(公告)日:2022-06-10
申请号:CN202210239359.9
申请日:2022-03-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/25 , G06V10/26 , G06V10/28 , G06V10/774 , G06V20/62 , G06V30/146 , G06V30/148 , G06V30/162 , G06V30/19
Abstract: 本公开提供了ROI检测模型训练方法、检测方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术。具体实现方案为:对样本图像进行特征提取,得到样本特征数据;对样本特征数据进行非线性映射,得到第一特征数据和第二特征数据;根据第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,确定区域间差异数据;根据区域间差异数据和标签ROI的关联区域,调整ROI检测模型的待训练参数。根据本公开的技术,提高了ROI检测模型的检测精度。
-
公开(公告)号:CN110517214B
公开(公告)日:2022-04-12
申请号:CN201910799782.2
申请日:2019-08-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开的实施例公开了用于生成图像的方法和装置。该方法的一具体实施方式包括:获取待处理人脸图像和目标人脸图像,其中,该待处理人脸图像中包括第一人脸图像和第一人脸图像的人脸关键点信息;将该人脸关键点信息输入至预设的人脸姿态估计模型,生成人脸姿态信息,其中,该人脸姿态估计模型用于表征人脸关键点信息与人脸姿态信息之间的对应关系;根据该人脸姿态信息,确定人脸图像融合系数;基于该人脸图像融合系数对该目标人脸图像和该第一人脸图像进行融合,生成第二人脸图像。该实施方式实现了针对人脸不同姿态对图像融合的方式进行调整,从而提升图像融合的效果。
-
公开(公告)号:CN110516598B
公开(公告)日:2022-03-01
申请号:CN201910797619.2
申请日:2019-08-27
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开的实施例公开了用于生成图像的方法和装置。该方法的一具体实施方式包括:获取底版图像和目标人脸图像,其中,该底版图像包括待替换人脸图像和背景;从与该待替换人脸图像匹配的预设人脸图像库中确定匹配人脸图像,其中,该匹配的预设人脸图像库中包括该待替换人脸图像所指示的人脸的不同面部姿态的人脸图像,该匹配人脸图像用于表征待替换人脸图像所显示的面部姿态与该目标人脸图像所显示的面部姿态一致;基于该匹配人脸图像对该待替换人脸图像的替换,生成目标图像,其中,该目标图像包括与该匹配人脸图像相一致的人脸图像和与该底版图像相一致的背景。该实施方式提升了生成与目标人脸图像的面部姿态相一致的图像的速度。
-
公开(公告)号:CN113742483A
公开(公告)日:2021-12-03
申请号:CN202110994014.X
申请日:2021-08-27
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档分类的方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。具体实现方案为:一种文档分类的方法,包括:获取待处理文档包括的文本的文本信息和图像信息;基于所述文本信息和所述图像信息进行融合得到融合特征;根据所述融合特征获取所述文本的特征序列;基于预先定义的文档类别和所述特征序列,确定所述待处理文档的类别。本公开提供的技术方案解决了文档分类中的文档混淆的技术问题,提升了分类的精度。
-
公开(公告)号:CN113361523A
公开(公告)日:2021-09-07
申请号:CN202110699576.1
申请日:2021-06-23
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了文本确定方法、装置、电子设备和计算机可读存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市、智慧金融场景下。具体实现方案为:确定原始图像的图像特征数据;基于图像特征数据,确定原始图像中包括的多个字符的字符特征数据;基于字符特征数据,确定多个字符的分类信息;以及通过基于多个字符的分类信息确定由多个字符组成的备选文本,确定对应于备选文本的目标文本。以此方式,本公开的技术方案可以在对没有提供足够视觉信息的原始图片进行文本识别时提供较高的识别正确率。
-
公开(公告)号:CN113343982A
公开(公告)日:2021-09-03
申请号:CN202110666465.0
申请日:2021-06-16
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/32 , G06K9/34 , G06K9/46 , G06K9/62 , G06K9/72 , G06N3/04 , G06N3/08 , G06F40/247 , G06F40/295
Abstract: 根据本公开的实施例,提供了一种多模态特征融合的实体关系提取的方法、装置、设备、介质和程序产品。涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。方案为:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字符文本特征,字符文本特征对应于区域中的一个字符;针对每个区域,基于区域的视觉特征和多个字符文本特征,确定区域的区域视觉语义特征;基于区域视觉语义特征,确定多个区域的关系信息,关系信息至少指示多个区域中的任意两个区域之间的关联程度;基于关系信息,将多个区域中的区域相关联;针对获取的实体,提取实体关系。由此能够提升文本识别的准确率。
-
-
-
-
-
-
-
-
-