-
公开(公告)号:CN114399769A
公开(公告)日:2022-04-26
申请号:CN202210279539.X
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06V10/764 , G06N3/08
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN119991936A
公开(公告)日:2025-05-13
申请号:CN202411963903.X
申请日:2024-12-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种数字人生成方法、智能体、装置、设备及存储介质,本公开涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型、增强现实等技术领域,可应用于数字人等场景。具体实现方案为:从待处理图像中分割出目标对象,得到目标子图;基于目标子图从数字人集合中筛选出与目标对象相适配的待优化数字人;基于目标子图中目标对象的外观特征生成待优化数字人的着装纹理;将着装纹理应用于待优化数字人,得到目标数字人;驱动目标数字人。
-
公开(公告)号:CN117351330B
公开(公告)日:2025-04-25
申请号:CN202311282976.8
申请日:2023-09-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于智慧城市等场景。图像处理方法包括:获取目标图像和图像处理任务的任务描述信息,并在多个预设任务类型中确定与图像处理任务对应的目标任务类型;以及利用图像处理模型对目标图像和任务描述信息进行处理,以得到目标图像的处理结果,其中,图像处理模型包括与多个预设任务类型对应的多个任务编码子模型和多个任务解码子模型,并且包括多个预设任务类型共用的第一图像编码子模型和特征交互编码子模型。
-
公开(公告)号:CN114912629B
公开(公告)日:2025-04-08
申请号:CN202210605586.9
申请日:2022-03-08
Applicant: 北京百度网讯科技有限公司
IPC: G06N20/00 , G06V10/40 , G06V10/774 , G06V10/80 , G06V20/00
Abstract: 本公开提供了一种联合感知模型训练、联合感知方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像识别和深度学习技术。具体实现方案为:获取样本图像和样本图像的感知标签;获取预设的联合感知模型;联合感知模型包括特征提取网络和联合感知网络;通过特征提取网络对样本图像进行特征提取,得到目标样本特征;通过联合感知网络根据目标样本特征进行联合感知,得到感知预测结果;根据感知预测结果和感知标签,对预设的联合感知模型进行训练;其中,联合感知包括执行至少两种感知任务。根据本公开的技术,减少了联合感知过程的数据运算量,提高了计算效率。
-
公开(公告)号:CN117542042B
公开(公告)日:2025-03-11
申请号:CN202311553137.5
申请日:2023-11-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种三维对象检测方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、虚拟现实、深度学习、大模型等技术领域,可应用于自动驾驶等场景。三维对象检测方法包括:提取待检测图像的特征图;将特征图投影至目标三维空间中,以得到目标三维空间的第一空间特征;基于目标三维空间中的参考点在特征图中的投影点,对特征图进行采样,以得到目标三维空间的第二空间特征;对第一空间特征和第二空间特征进行融合,以得到融合空间特征;以及基于融合空间特征,确定待检测图像的三维对象检测结果。
-
公开(公告)号:CN118644605A
公开(公告)日:2024-09-13
申请号:CN202410705736.2
申请日:2024-06-01
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了基于3D高斯的逆渲染方法、装置、设备及存储介质,本公开涉及人工智能技术领域,具体为计算机视觉、深度学习等技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:基于目标场景的多个视角的二维图像对目标场景进行三维建模,得到基于多个3D高斯点表达的目标场景的场景属性;基于目标场景的场景属性、材质属性以及光照参数,得到目标场景的各3D高斯点的颜色值;基于各3D高斯点的颜色值,将目标场景分别按照多个视角投射到二维空间,得到多张映射图像;基于多张映射图像和多个视角的二维图像之间的损失,优化场景属性、材质属性和光照参数。
-
公开(公告)号:CN118629009A
公开(公告)日:2024-09-10
申请号:CN202410796725.X
申请日:2024-06-19
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/58 , G06V10/774 , G06V10/82 , G06V10/44 , G06N3/0464 , G06N3/0455
Abstract: 本公开提供了一种信息预测方法和自动驾驶模型的训练方法、装置、设备、介质、程序产品、自动驾驶车辆,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习等技术领域,可应用于自动驾驶等场景。信息预测方法的具体实现方案为:获取感知数据,该感知数据包括车辆中的传感器采集的图像数据和车辆的驾驶数据;对图像数据进行编码,得到与图像数据对应的图像令牌序列;对驾驶数据进行编码,得到与驾驶数据对应的驾驶特征;以及基于驾驶特征和图像令牌序列,采用生成模型生成与图像令牌序列对应的预测令牌序列和针对车辆的控制信息。
-
公开(公告)号:CN118609080A
公开(公告)日:2024-09-06
申请号:CN202410954767.1
申请日:2024-07-16
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/56 , G06V20/58 , G06V10/82 , G06V10/80 , G06V10/764 , G06N3/096 , G06N3/0455 , B60W60/00 , B60W40/02 , B60W50/00
Abstract: 本公开提供道路环境感知方法、训练方法、装置、电子设备、存储介质及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域,可应用于自动驾驶、无人驾驶等场景。道路环境感知方法包括:获取关联区域车道属性和车端传感器采集的待测信息,其中,待测信息表征车辆行驶的目标区域,关联区域车道属性与关联区域相对应,关联区域与目标区域之间满足预设相似度条件;以及利用车端感知模型处理关联区域车道属性和待测信息,得到目标区域的道路感知信息。
-
-
公开(公告)号:CN116611491A
公开(公告)日:2023-08-18
申请号:CN202310444257.5
申请日:2023-04-23
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/08 , G06N3/0455 , G06N3/048 , G06N3/0499 , G06V10/82 , G06V10/40
Abstract: 本申请公开了目标检测模型的训练方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、深度学习等技术领域,可应用于智慧城市等场景。方案为:对获取样本图像进行编码,获取样本图像对应的编码特征;对编码特征与M组查询特征中的每组查询特征进行解码,获取每组查询特征对应的一组预测结果,其中,M组查询特征是对目标检测模型的多个第一查询特征进行分组得到的;根据每组预测结果中各预测结果与样本图像对应的第一标注之间的匹配结果,对目标检测模型进行训练。由此,分组对预测结果与标注进行匹配,从整体上来讲,样本图像中每个目标可以匹配上多个正样本,使得每个样本图像的监督信号增强,加速了模型的收敛速度。
-
-
-
-
-
-
-
-
-