-
公开(公告)号:CN115879535A
公开(公告)日:2023-03-31
申请号:CN202310134421.2
申请日:2023-02-10
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0895 , G06N3/084 , G06N3/096 , G06N3/0464 , G06F18/25
Abstract: 本公开提供了一种自动驾驶感知模型的训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、智慧城市等场景。该训练方法包括:获取一种或多种模态的训练样本;采用设定场景的有标注数据对感知模型进行场景化训练;采用所述训练样本对场景化后的感知模型进行半监督训练,以更新所述感知模型并形成伪标注数据,且将所述伪标注数据更新至所述训练样本中;采用训练样本,基于半监督训练后的感知模型,进行知识迁移,以形成车端模型。本公开提供的方案充分发挥了自动驾驶场景海量数据和大模型的优势。
-
公开(公告)号:CN115082690B
公开(公告)日:2023-03-28
申请号:CN202210822810.X
申请日:2022-07-12
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种目标识别方法、目标识别模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能领域,尤其涉及图像处理、计算机视觉和深度学习技术领域,可应用于3D视觉、虚拟现实等场景。实现方案为:初始化待训练的学生模型并确定经训练的教师模型;获取点云数据、点云数据中的每个点所对应的第一标签以及点云数据所对应的第二标签,第一标签用于标识该点与点云数据所对应的待识别目标所在区域的关系,第二标签为预设的目标识别结果;将点云数据输入学生模型,以及将点云数据和第一标签输入教师模型,从而基于知识蒸馏方法对该学生模型进行训练。
-
公开(公告)号:CN115035538A
公开(公告)日:2022-09-09
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN114942984A
公开(公告)日:2022-08-26
申请号:CN202210590151.1
申请日:2022-05-26
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/332 , G06F16/38 , G06F16/532 , G06F16/58 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V10/42 , G06V10/80 , G06V10/82
Abstract: 本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域。具体实现方案为:获取样本图文对;提取样本图像中的样本场景文本;将样本文本输入文本编码网络,得到样本文本特征;将样本图像和初始的样本融合特征输入视觉编码子网络,以及将初始的样本融合特征和样本场景文本输入场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征;根据样本文本特征、样本图像的全局图像特征和经学习的样本融合特征,对视觉场景文本融合模型进行预训练。通过上述技术方案,能够提高图文跨模态检索性能。
-
公开(公告)号:CN114419519B
公开(公告)日:2022-06-24
申请号:CN202210297747.2
申请日:2022-03-25
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种目标对象检测方法、装置、电子设备、存储介质和计算机程序产品,涉及人工智能领域,尤其涉及计算机视觉、图像识别和深度学习技术领域,可用于智慧城市和智能交通场景。具体实现方案为:根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息,确定当前帧图像的多个多尺度特征图;对多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图;根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征,确定时空融合特征图;以及根据时空融合特征图,检测当前帧图像中的目标对象。
-
公开(公告)号:CN119810257A
公开(公告)日:2025-04-11
申请号:CN202411735622.9
申请日:2024-11-28
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/60 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464
Abstract: 本公开提供了图像生成方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于虚拟现实、3D服饰生成等场景。具体实现方案为:得到目标输入图像的图像特征,其中,目标输入图像至少包含有目标对象,所述图像特征至少包含:目标对象的轮廓特征和姿态特征;得到至少一个服饰特征图像的服饰特征;其中,所述至少一个服饰特征图像与所述目标输入图像中目标对象所穿戴的服饰相关;将所述目标输入图像的图像特征以及所述服饰特征进行特征融合,以得到针对所述目标对象所穿戴服饰的目标服饰图像。
-
公开(公告)号:CN119597948A
公开(公告)日:2025-03-11
申请号:CN202411603999.9
申请日:2024-11-11
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/535 , G06N5/04
Abstract: 本公开提供了一种图像生成方法、装置、智能体、智能体系统及存储介质,涉及人工智能领域,尤其涉及计算机视觉、深度学习、大模型领域,可应用于基于人工智能的内容生成场景。具体实现方案为:获取图像生成需求信息;根据图像生成需求信息确定对应的目标图像生成方式;基于图像生成需求信息,查询得到第一参考图像;基于图像生成需求信息和第一参考图像,采用目标图像生成方式,生成目标图像。
-
公开(公告)号:CN119559312A
公开(公告)日:2025-03-04
申请号:CN202411719882.7
申请日:2024-11-27
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了虚拟形象的生成方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于AIGC基于人工智能的内容生成等场景。该方法具体实现方案为:响应于接收到的针对目标车辆的风格描述信息,获取针对目标车辆的掩码图像和三维建模信息;掩码图像中的各掩码区域表征用于在针对目标车辆的初始纹理图像中添加素材图像的位置;从三维建模信息中提取初始纹理图像和初始纹理图像中的各二维坐标与虚拟形象中的各三维坐标之间的映射关系;通过处理风格描述信息、初始纹理图像和掩码图像,生成目标纹理图像;基于映射关系,通过处理目标纹理图像生成目标虚拟形象。
-
公开(公告)号:CN119417969A
公开(公告)日:2025-02-11
申请号:CN202411732445.9
申请日:2024-11-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了纹理图像生成方法、训练方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于AIGC基于人工智能的内容生成等场景。该生成方法的具体实现方案为:提取针对目标对象的文本描述信息的文本特征;基于针对目标对象的三维信息,生成二维图像;其中,二维图像指示了目标对象的三维点云信息和纹理分布信息;对二维图像进行处理,生成三维结构融合特征;基于三维结构融合特征和文本特征生成目标纹理特征;以及基于目标纹理特征,生成目标纹理图像,其中,目标纹理图像用于生成针对目标对象的虚拟形象。
-
公开(公告)号:CN118882625A
公开(公告)日:2024-11-01
申请号:CN202410954916.4
申请日:2024-07-16
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了基于大模型的地图构建方法、车辆控制方法、装置、电子设备、存储介质及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型与生成式模型技术领域,可应用于自动驾驶、无人驾驶等场景。基于大模型的地图构建方法包括:获取关联区域车道属性和车端传感器采集的待测图像,其中,待测图像表征待测道路区域,关联区域车道属性与关联道路区域相对应,关联道路区域与待测道路区域之间满足预设相似度条件;基于关联区域车道属性构建目标提示信息;利用大模型处理目标提示信息和待测图像,得到待测道路区域的区域道路地图。
-
-
-
-
-
-
-
-
-