-
公开(公告)号:CN117612121A
公开(公告)日:2024-02-27
申请号:CN202311638811.X
申请日:2023-12-01
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/56 , G06V10/80 , G06V10/82 , G06V10/25 , G06V10/764 , G06V20/70 , G06T7/73 , G06V10/766 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本公开提供了一种目标检测方法、深度学习模型的训练方法、装置、电子设备、存储介质、程序产品以及自动驾驶车辆,涉及人工智能技术领域,尤其涉及人工智能技术领域,具体为计算机视觉、虚拟现实、深度学习、大模型等技术领域,可应用于自动驾驶等场景。具体实现方案为:对待检测图像序列中的待检测图像进行特征提取,得到图像特征序列;将图像特征序列和查询矩阵进行视觉交互处理,得到鸟瞰特征;对鸟瞰特征进行目标检测,得到初始目标检测结果;基于初始目标检测结果,对查询矩阵中的查询元素进行删除,得到轻量化的查询矩阵;以及基于轻量化的查询矩阵和图像特征序列,得到目标检测结果。
-
公开(公告)号:CN117351330A
公开(公告)日:2024-01-05
申请号:CN202311282976.8
申请日:2023-09-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于智慧城市等场景。图像处理方法包括:获取目标图像和图像处理任务的任务描述信息,并在多个预设任务类型中确定与图像处理任务对应的目标任务类型;以及利用图像处理模型对目标图像和任务描述信息进行处理,以得到目标图像的处理结果,其中,图像处理模型包括与多个预设任务类型对应的多个任务编码子模型和多个任务解码子模型,并且包括多个预设任务类型共用的第一图像编码子模型和特征交互编码子模型。
-
公开(公告)号:CN116091857B
公开(公告)日:2023-10-20
申请号:CN202211270036.2
申请日:2022-10-17
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06T11/60 , G06V10/94
Abstract: 本公开提供了一种图像处理模型的训练方法、图像处理方法和装置,涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习等技术领域,可应用于智慧城市、智能交通等场景。具体实现方案为:确定第一图像的第一图像编码特征和第一风格编码特征;确定第二图像的第二图像编码特征和第二风格编码特征;根据第一图像编码特征和第二图像编码特征,确定第一差分方向向量;将第一图像编码特征、第一差分方向向量和第一风格编码特征输入图像处理模型中的差分映射器,得到编辑方向向量;根据第一风格编码特征和第二风格编码特征,确定第二差分方向向量;以及根据第二差分方向向量和编辑方向向量之间的差异度,调整图像处理模型的参数。
-
公开(公告)号:CN114612651B
公开(公告)日:2023-07-21
申请号:CN202210239359.9
申请日:2022-03-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/25 , G06V10/26 , G06V10/28 , G06V10/774 , G06V20/62 , G06V30/146 , G06V30/148 , G06V30/162 , G06V30/19
Abstract: 本公开提供了ROI检测模型训练方法、检测方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术。具体实现方案为:对样本图像进行特征提取,得到样本特征数据;对样本特征数据进行非线性映射,得到第一特征数据和第二特征数据;根据第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,确定区域间差异数据;根据区域间差异数据和标签ROI的关联区域,调整ROI检测模型的待训练参数。根据本公开的技术,提高了ROI检测模型的检测精度。
-
公开(公告)号:CN115565177B
公开(公告)日:2023-06-20
申请号:CN202210983230.9
申请日:2022-08-16
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/148 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/084 , G06N3/088 , G06N3/0895 , G06N3/09
Abstract: 本公开提供了一种文字识别模型训练、文字识别方法、装置、设备及介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于文字检测识别技术等场景。具体实现方案为:将无标签的训练样本分割为至少两个子样本图像;将至少两个子样本图像划分至第一训练集合和第二训练集合;所述第一训练集合包括具有可见属性的第一子样本图像,所述第二训练集合包括具有不可见属性的第二子样本图像;以所述第二训练集合作为所述第一训练集合的标签,对待训练编码器执行自监督训练,得到目标编码器。
-
公开(公告)号:CN116091857A
公开(公告)日:2023-05-09
申请号:CN202211270036.2
申请日:2022-10-17
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06T11/60 , G06V10/94
Abstract: 本公开提供了一种图像处理模型的训练方法、图像处理方法和装置,涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习等技术领域,可应用于智慧城市、智能交通等场景。具体实现方案为:确定第一图像的第一图像编码特征和第一风格编码特征;确定第二图像的第二图像编码特征和第二风格编码特征;根据第一图像编码特征和第二图像编码特征,确定第一差分方向向量;将第一图像编码特征、第一差分方向向量和第一风格编码特征输入图像处理模型中的差分映射器,得到编辑方向向量;根据第一风格编码特征和第二风格编码特征,确定第二差分方向向量;以及根据第二差分方向向量和编辑方向向量之间的差异度,调整图像处理模型的参数。
-
公开(公告)号:CN116071625A
公开(公告)日:2023-05-05
申请号:CN202310206397.9
申请日:2023-03-07
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/778 , G06V10/766 , G06V10/774
Abstract: 本申请提供了一种深度学习模型的训练方法、目标检测方法及装置,涉及计算机视觉、深度学习。该训练方法具体实现方案为:利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和第一图像特征,得到第一特征图。利用第二深度学习模型对样本图像进行处理,得到第二图像特征;并根据初始位置分布特征图和第二图像特征,得到第二特征图。利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
-
公开(公告)号:CN115907009A
公开(公告)日:2023-04-04
申请号:CN202310147702.1
申请日:2023-02-10
Applicant: 北京百度网讯科技有限公司
IPC: G06N5/02 , G06N3/0464 , G06N3/096
Abstract: 本公开提供了一种自动驾驶感知模型的迁移方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:获取一种或多种模态的训练样本;采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。本公开提高了知识迁移形成车端模型的灵活性和多样性,提高了车端模型的准确性。
-
公开(公告)号:CN115761437A
公开(公告)日:2023-03-07
申请号:CN202211400729.9
申请日:2022-11-09
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/82 , G06V10/26 , G06V10/774 , G06V10/762 , G06V10/80
Abstract: 本公开提供了一种基于视觉转换器的图像处理方法、训练方法和电子设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。该方法包括:确定待处理图像的多个原图像标记;通过视觉转换器模型,将所述多个原图像标记拆分成至少两个重要图像标记和至少两个次要图像标记;通过所述视觉转换器模型,对所述至少两个重要图像标记进行聚合得到新的重要图像标记,并对所述至少两个次要图像标记进行聚合得到新的次要图像标记;通过所述视觉转换器模型,根据所述新的重要图像标记和所述新的次要图像标记进行图像处理,得到图像处理结果。通过上述技术方案能够提高图像处理的准确性。
-
公开(公告)号:CN115565177A
公开(公告)日:2023-01-03
申请号:CN202210983230.9
申请日:2022-08-16
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06N3/04 , G06N3/08 , G06V10/26 , G06V10/44 , G06V10/764 , G06V10/82 , G06V30/18 , G06V30/19
Abstract: 本公开提供了一种文字识别模型训练、文字识别方法、装置、设备及介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于文字检测识别技术等场景。具体实现方案为:将无标签的训练样本分割为至少两个子样本图像;将至少两个子样本图像划分至第一训练集合和第二训练集合;所述第一训练集合包括具有可见属性的第一子样本图像,所述第二训练集合包括具有不可见属性的第二子样本图像;以所述第二训练集合作为所述第一训练集合的标签,对待训练编码器执行自监督训练,得到目标编码器。
-
-
-
-
-
-
-
-
-