-
公开(公告)号:CN119810593A
公开(公告)日:2025-04-11
申请号:CN202510285822.7
申请日:2025-03-11
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/774 , G06V10/776 , G06N3/0475 , G06N3/045 , G06N3/0464 , G06F40/284 , G06F40/16 , G06V10/22 , G06V10/80 , G06N3/092 , G06V10/44 , G06V10/82
Abstract: 本申请实施例提供了一种描述生成模型训练方法、描述生成方法、装置及电子设备,涉及计算机视觉技术领域,描述生成模型训练方法包括:利用第一文本提示以及描述生成模型,对每一第一样本图像进行处理,得到该第一样本图像中指定图像区域的描述文本,作为第一样本描述文本;从各第一样本描述文本中,确定与对应的第一样本图像中指定图像区域相匹配的第二样本描述文本;将每一第二样本描述文本对应的第一样本图像和第一文本提示输入描述生成模型,得到该第一样本图像中指定图像区域的第一预测描述文本;基于第一预测描述文本与第二样本描述文本之间的差异,对描述生成模型的参数进行调整,得到新的描述生成模型。可以准确地生成图像区域的描述文本。
-
公开(公告)号:CN119150997B
公开(公告)日:2025-03-28
申请号:CN202411650667.6
申请日:2024-11-19
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N5/04 , G06N20/00 , G06F16/583 , G06F16/3329
Abstract: 本申请公开了多模态大模型的训练方法、装置、存储介质和电子设备,训练方法包括:利用预先训练的用于进行标签标注的标签专家LMM,对原始多模态训练数据预测标签;基于答案评级标签对原始多模态训练数据进行过滤,得到过滤数据集;基于过滤数据集中的所有数据样本的图像标签和指令标签,从过滤数据集中选择数据样本作为采样数据,使基于所有采样数据的图像标签和指令标签确定的标签熵最大化;将采样数据作为训练样本进行多模态大模型的训练。应用本申请,能够利用筛选后的训练数据进行多模态大模型训练,并有效保证多模态大模型的性能。
-
公开(公告)号:CN119150997A
公开(公告)日:2024-12-17
申请号:CN202411650667.6
申请日:2024-11-19
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N5/04 , G06N20/00 , G06F16/583 , G06F16/332
Abstract: 本申请公开了多模态大模型的训练方法、装置、存储介质和电子设备,训练方法包括:利用预先训练的用于进行标签标注的标签专家LMM,对原始多模态训练数据预测标签;基于答案评级标签对原始多模态训练数据进行过滤,得到过滤数据集;基于过滤数据集中的所有数据样本的图像标签和指令标签,从过滤数据集中选择数据样本作为采样数据,使基于所有采样数据的图像标签和指令标签确定的标签熵最大化;将采样数据作为训练样本进行多模态大模型的训练。应用本申请,能够利用筛选后的训练数据进行多模态大模型训练,并有效保证多模态大模型的性能。
-
公开(公告)号:CN118568289B
公开(公告)日:2024-11-26
申请号:CN202411053533.6
申请日:2024-08-02
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06F16/583 , G06V10/75 , G06V10/74 , G06V10/774
Abstract: 本申请公开了一种目标定位方法及其相关设备,该方法包括:获取待处理图像以及第一文本提示信息,第一文本提示信息是需要从待处理图像中检索的目标的描述信息;基于待处理图像和第一文本提示信息,通过预设的多模态大模型对待处理图像中目标的边界框进行定位,得到定位结果;其中,预设多模态大模型是基于预设边界框定位数据集,对基础多模态大模型进行训练得到的,预设边界框定位数据集中的每条数据包括第一数据集以及与第一数据集对应的边界框标签,边界框标签与第一数据集是N对1的关系,N大于等于0,第一数据集包括第一样本图像和对需要检索的目标进行描述的第二文本提示信息;本申请实现提升任意复杂描述的目标定位的准确度。
-
公开(公告)号:CN113705648B
公开(公告)日:2024-03-01
申请号:CN202110956614.7
申请日:2021-08-19
Applicant: 杭州海康威视数字技术股份有限公司
Inventor: 王金
IPC: G06F18/214 , G06F18/232
Abstract: 本申请提供一种数据处理方法、装置及设备,该方法包括:对目标类别对应的所有目标框的无标签数据特征进行聚类,得到所述目标类别对应的至少一个无标签聚类中心;确定无标签聚类中心与所述目标类别对应的有标签聚类中心之间的距离;基于所述距离确定所述无标签聚类中心的伪标签类型;基于所有目标类别对应的所有无标签聚类中心的伪标签类型,统计正报类型的伪标签类型的第一数量和误报类型的伪标签类型的第二数量;基于第一数量和第二数量确定机器学习模型是否需要重新训练;若是,则对所述机器学习模型进行重新训练,基于训练后的机器学习模型对待检测图像进行数据处理。通过本申请的技术方案,能够避免触发时机滞后,避免训练资源的浪费。
-
公开(公告)号:CN112084811B
公开(公告)日:2023-08-11
申请号:CN201910505669.9
申请日:2019-06-12
Applicant: 杭州海康威视数字技术股份有限公司
Inventor: 王金
Abstract: 本申请公开了一种身份信息的确定方法、装置及存储介质,属于图像处理技术领域。所述方法包括:获取目标用户的多维用户特征,所述多维用户特征包括人脸特征、人体特征和步态特征中的至少两个;根据所述多维用户特征获取多组特征,所述多组特征与所述多维用户特征一一对应,且每组特征包括同一维度的至少一个特征;根据所述多组特征确定所述目标用户的身份信息。本申请可以提高确定身份信息的可靠性和准确性。
-
公开(公告)号:CN112084811A
公开(公告)日:2020-12-15
申请号:CN201910505669.9
申请日:2019-06-12
Applicant: 杭州海康威视数字技术股份有限公司
Inventor: 王金
IPC: G06K9/00
Abstract: 本申请公开了一种身份信息的确定方法、装置及存储介质,属于图像处理技术领域。所述方法包括:获取目标用户的多维用户特征,所述多维用户特征包括人脸特征、人体特征和步态特征中的至少两个;根据所述多维用户特征获取多组特征,所述多组特征与所述多维用户特征一一对应,且每组特征包括同一维度的至少一个特征;根据所述多组特征确定所述目标用户的身份信息。本申请可以提高确定身份信息的可靠性和准确性。
-
公开(公告)号:CN118568289A
公开(公告)日:2024-08-30
申请号:CN202411053533.6
申请日:2024-08-02
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06F16/583 , G06V10/75 , G06V10/74 , G06V10/774
Abstract: 本申请公开了一种目标定位方法及其相关设备,该方法包括:获取待处理图像以及第一文本提示信息,第一文本提示信息是需要从待处理图像中检索的目标的描述信息;基于待处理图像和第一文本提示信息,通过预设的多模态大模型对待处理图像中目标的边界框进行定位,得到定位结果;其中,预设多模态大模型是基于预设边界框定位数据集,对基础多模态大模型进行训练得到的,预设边界框定位数据集中的每条数据包括第一数据集以及与第一数据集对应的边界框标签,边界框标签与第一数据集是N对1的关系,N大于等于0,第一数据集包括第一样本图像和对需要检索的目标进行描述的第二文本提示信息;本申请实现提升任意复杂描述的目标定位的准确度。
-
-
-
-
-
-
-