-
公开(公告)号:CN120032149A
公开(公告)日:2025-05-23
申请号:CN202510469031.X
申请日:2025-04-15
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/75 , G06V10/24 , G06V10/764 , G06V10/80
Abstract: 本申请公开了一种基于图像检测自然语言描述目标的方法,包括:将待检测图像输入至已训练的用于将输入图像转换为具有图像详细描述数据并对图像详细描述数据中的文本实例进行定位描述的详细定位描述数据的专家模型,通过专家模型的推理,得到详细定位描述数据,详细定位描述数据包括:图像详细描述数据、以及与图像详细描述数据中的文本实例相对应的图像实例描述数据,利用待检测图像的详细定位描述数据,获取待检测图像中与文本实例所表征的自然语言描述目标相匹配的候选目标。本申请有利于提高自然语言所描述目标检测的准确性。
-
公开(公告)号:CN119940557A
公开(公告)日:2025-05-06
申请号:CN202510436082.2
申请日:2025-04-09
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N5/04 , G06N3/092 , G06F18/241 , G06V10/82
Abstract: 本申请公开了一种多模态大模型的优化方法、装置和电子设备,方法包括:对基础多模态大模型进行训练,得到过程奖励模型;利用基础多模态大模型对训练图像进行图像描述的逐句推理;针对推理得到的每个当前句,利用所述过程奖励模型确定所述当前句的各个候选描述是否正确,将所述当前句的正确候选描述用于图像描述的下一句推理;基于逐句推理所得各句描述中成对的正确候选描述和错误候选描述,确定成对的正确图像描述和错误图像描述,作为过程监督数据;基于训练图像和所述过程监督数据对所述基础多模态大模型进行优化,得到抑制幻觉的多模态大模型。应用本申请,能够在进行图像描述时有效改善幻觉抑制的性能。
-
公开(公告)号:CN118568289A
公开(公告)日:2024-08-30
申请号:CN202411053533.6
申请日:2024-08-02
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06F16/583 , G06V10/75 , G06V10/74 , G06V10/774
Abstract: 本申请公开了一种目标定位方法及其相关设备,该方法包括:获取待处理图像以及第一文本提示信息,第一文本提示信息是需要从待处理图像中检索的目标的描述信息;基于待处理图像和第一文本提示信息,通过预设的多模态大模型对待处理图像中目标的边界框进行定位,得到定位结果;其中,预设多模态大模型是基于预设边界框定位数据集,对基础多模态大模型进行训练得到的,预设边界框定位数据集中的每条数据包括第一数据集以及与第一数据集对应的边界框标签,边界框标签与第一数据集是N对1的关系,N大于等于0,第一数据集包括第一样本图像和对需要检索的目标进行描述的第二文本提示信息;本申请实现提升任意复杂描述的目标定位的准确度。
-
公开(公告)号:CN119810593A
公开(公告)日:2025-04-11
申请号:CN202510285822.7
申请日:2025-03-11
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/774 , G06V10/776 , G06N3/0475 , G06N3/045 , G06N3/0464 , G06F40/284 , G06F40/16 , G06V10/22 , G06V10/80 , G06N3/092 , G06V10/44 , G06V10/82
Abstract: 本申请实施例提供了一种描述生成模型训练方法、描述生成方法、装置及电子设备,涉及计算机视觉技术领域,描述生成模型训练方法包括:利用第一文本提示以及描述生成模型,对每一第一样本图像进行处理,得到该第一样本图像中指定图像区域的描述文本,作为第一样本描述文本;从各第一样本描述文本中,确定与对应的第一样本图像中指定图像区域相匹配的第二样本描述文本;将每一第二样本描述文本对应的第一样本图像和第一文本提示输入描述生成模型,得到该第一样本图像中指定图像区域的第一预测描述文本;基于第一预测描述文本与第二样本描述文本之间的差异,对描述生成模型的参数进行调整,得到新的描述生成模型。可以准确地生成图像区域的描述文本。
-
公开(公告)号:CN118568289B
公开(公告)日:2024-11-26
申请号:CN202411053533.6
申请日:2024-08-02
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06F16/583 , G06V10/75 , G06V10/74 , G06V10/774
Abstract: 本申请公开了一种目标定位方法及其相关设备,该方法包括:获取待处理图像以及第一文本提示信息,第一文本提示信息是需要从待处理图像中检索的目标的描述信息;基于待处理图像和第一文本提示信息,通过预设的多模态大模型对待处理图像中目标的边界框进行定位,得到定位结果;其中,预设多模态大模型是基于预设边界框定位数据集,对基础多模态大模型进行训练得到的,预设边界框定位数据集中的每条数据包括第一数据集以及与第一数据集对应的边界框标签,边界框标签与第一数据集是N对1的关系,N大于等于0,第一数据集包括第一样本图像和对需要检索的目标进行描述的第二文本提示信息;本申请实现提升任意复杂描述的目标定位的准确度。
-
-
-
-