-
公开(公告)号:CN118568289A
公开(公告)日:2024-08-30
申请号:CN202411053533.6
申请日:2024-08-02
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06F16/583 , G06V10/75 , G06V10/74 , G06V10/774
Abstract: 本申请公开了一种目标定位方法及其相关设备,该方法包括:获取待处理图像以及第一文本提示信息,第一文本提示信息是需要从待处理图像中检索的目标的描述信息;基于待处理图像和第一文本提示信息,通过预设的多模态大模型对待处理图像中目标的边界框进行定位,得到定位结果;其中,预设多模态大模型是基于预设边界框定位数据集,对基础多模态大模型进行训练得到的,预设边界框定位数据集中的每条数据包括第一数据集以及与第一数据集对应的边界框标签,边界框标签与第一数据集是N对1的关系,N大于等于0,第一数据集包括第一样本图像和对需要检索的目标进行描述的第二文本提示信息;本申请实现提升任意复杂描述的目标定位的准确度。
-
公开(公告)号:CN112508101A
公开(公告)日:2021-03-16
申请号:CN202011431789.8
申请日:2020-12-07
Applicant: 杭州海康威视数字技术股份有限公司
Inventor: 黄博
Abstract: 本发明实施例提供了一种神经网络模型的调整系统、方法及设备,本方案中,第一方面,服务端基于各客户端发送的样本图像调整泛化模型,各客户端分别对应不同的场景,也就是说,服务端基于多场景图像调整泛化模型,因此该泛化模型能够适用于多个场景,提高了泛化模型在不同场景的输出准确率;第二方面,客户端利用其自身场景的私有样本图像对泛化模型进行调整,得到数据处理模型,该数据处理模型能够兼备适用多场景的泛化性能、以及对特定场景的更强的适用性,或者说,该数据处理模型兼备了通用性和私用性,提高了数据处理模型在不同场景的输出准确率。
-
公开(公告)号:CN113723604B
公开(公告)日:2024-03-26
申请号:CN202010456574.5
申请日:2020-05-26
Applicant: 杭州海康威视数字技术股份有限公司
Abstract: 本申请提供一种神经网络训练方法、装置、电子设备及可读存储介质,该神经网络训练方法包括:利用待训练神经网络的固定层对第一类型训练数据进行处理,以得到加密特征;基于所述加密特征,以及第二类型训练数据,对所述待训练神经网络的可训练层进行训练,直至所述待训练神经网络收敛。该方法可以在保证第一类型训练数据安全性的情况下,提高神经网络模型的性能。
-
公开(公告)号:CN113723604A
公开(公告)日:2021-11-30
申请号:CN202010456574.5
申请日:2020-05-26
Applicant: 杭州海康威视数字技术股份有限公司
Abstract: 本申请提供一种神经网络训练方法、装置、电子设备及可读存储介质,该神经网络训练方法包括:利用待训练神经网络的固定层对第一类型训练数据进行处理,以得到加密特征;基于所述加密特征,以及第二类型训练数据,对所述待训练神经网络的可训练层进行训练,直至所述待训练神经网络收敛。该方法可以在保证第一类型训练数据安全性的情况下,提高神经网络模型的性能。
-
公开(公告)号:CN119903348A
公开(公告)日:2025-04-29
申请号:CN202510399045.9
申请日:2025-03-31
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06F18/214 , G06F18/2431 , G06N5/04 , G06F18/22
Abstract: 本申请实施例提供了一种多模态大模型训练方法、目标检测方法、装置及电子设备,涉及人工智能技术领域,多模态大模型训练方法包括:获取多个样本图像和图像中对象标注框的第一样本描述文本;利用第一大语言模型和第一文本提示,提取每一样本图像对应的第一样本描述文本所描述的对象的类别名称以及属性,并将得到的类别名称与属性中的至少一个进行组合,得到第二样本描述文本;确定该样本图像中每一对象标注框与对应的多个第二样本描述文本的每一属性是否相匹配;构建包含第二样本描述文本的样本问题以及对应的思维链形式的样本回答,得到问答样本对;利用构建的问答样本对进行多模态大模型的训练。可以降低描述性目标检测的复杂性,提高检测效率。
-
公开(公告)号:CN119810593A
公开(公告)日:2025-04-11
申请号:CN202510285822.7
申请日:2025-03-11
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/774 , G06V10/776 , G06N3/0475 , G06N3/045 , G06N3/0464 , G06F40/284 , G06F40/16 , G06V10/22 , G06V10/80 , G06N3/092 , G06V10/44 , G06V10/82
Abstract: 本申请实施例提供了一种描述生成模型训练方法、描述生成方法、装置及电子设备,涉及计算机视觉技术领域,描述生成模型训练方法包括:利用第一文本提示以及描述生成模型,对每一第一样本图像进行处理,得到该第一样本图像中指定图像区域的描述文本,作为第一样本描述文本;从各第一样本描述文本中,确定与对应的第一样本图像中指定图像区域相匹配的第二样本描述文本;将每一第二样本描述文本对应的第一样本图像和第一文本提示输入描述生成模型,得到该第一样本图像中指定图像区域的第一预测描述文本;基于第一预测描述文本与第二样本描述文本之间的差异,对描述生成模型的参数进行调整,得到新的描述生成模型。可以准确地生成图像区域的描述文本。
-
公开(公告)号:CN118568289B
公开(公告)日:2024-11-26
申请号:CN202411053533.6
申请日:2024-08-02
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06F16/583 , G06V10/75 , G06V10/74 , G06V10/774
Abstract: 本申请公开了一种目标定位方法及其相关设备,该方法包括:获取待处理图像以及第一文本提示信息,第一文本提示信息是需要从待处理图像中检索的目标的描述信息;基于待处理图像和第一文本提示信息,通过预设的多模态大模型对待处理图像中目标的边界框进行定位,得到定位结果;其中,预设多模态大模型是基于预设边界框定位数据集,对基础多模态大模型进行训练得到的,预设边界框定位数据集中的每条数据包括第一数据集以及与第一数据集对应的边界框标签,边界框标签与第一数据集是N对1的关系,N大于等于0,第一数据集包括第一样本图像和对需要检索的目标进行描述的第二文本提示信息;本申请实现提升任意复杂描述的目标定位的准确度。
-
-
-
-
-
-