-
公开(公告)号:CN115661832A
公开(公告)日:2023-01-31
申请号:CN202211399960.0
申请日:2022-11-09
Applicant: 杭州海康威视数字技术股份有限公司
Abstract: 本申请公开一种图像的标注方法、系统及存储介质,涉及计算机技术领域,用于根据待标注图像以及待标注类别生成相应的推荐区域图像。该方法包括:以不同尺寸的多个截取框分别遍历待标注图像,从待标注图像中截取出多个图块;从多个图块中确定与待标注类别相匹配的目标图块;基于目标图块在待标注图像中的位置,生成待标注类别对应的推荐区域图像。
-
公开(公告)号:CN120012832A
公开(公告)日:2025-05-16
申请号:CN202510506137.2
申请日:2025-04-22
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N3/045 , G06F40/186 , G06V10/82 , G06V10/774 , G06V30/148 , G06V30/19
Abstract: 本发明实施例提出视觉问答多模态大模型建立方法和装置。方法包括:A1、获取第一训练数据集,每一条训练数据包括:至少一训练图像、一复杂提示词和一最佳回答;复杂提示词包括问题,还包括背景文本、约束指令二者中的至少之一;A2、从第一训练数据集中抽取一条训练数据,将该条训练数据中的图像和复杂提示词输入待训练的视觉问答多模态大模型,视觉问答多模态大模型输出预测回答;根据预测回答和该条训练数据中的最佳回答,计算损失值;采用损失值对视觉问答多模态大模型的参数进行调整;返回步骤A2,直至达到训练结束条件。本发明实施例提高了视觉问答的准确度。
-
公开(公告)号:CN119150997B
公开(公告)日:2025-03-28
申请号:CN202411650667.6
申请日:2024-11-19
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N5/04 , G06N20/00 , G06F16/583 , G06F16/3329
Abstract: 本申请公开了多模态大模型的训练方法、装置、存储介质和电子设备,训练方法包括:利用预先训练的用于进行标签标注的标签专家LMM,对原始多模态训练数据预测标签;基于答案评级标签对原始多模态训练数据进行过滤,得到过滤数据集;基于过滤数据集中的所有数据样本的图像标签和指令标签,从过滤数据集中选择数据样本作为采样数据,使基于所有采样数据的图像标签和指令标签确定的标签熵最大化;将采样数据作为训练样本进行多模态大模型的训练。应用本申请,能够利用筛选后的训练数据进行多模态大模型训练,并有效保证多模态大模型的性能。
-
公开(公告)号:CN119150997A
公开(公告)日:2024-12-17
申请号:CN202411650667.6
申请日:2024-11-19
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N5/04 , G06N20/00 , G06F16/583 , G06F16/332
Abstract: 本申请公开了多模态大模型的训练方法、装置、存储介质和电子设备,训练方法包括:利用预先训练的用于进行标签标注的标签专家LMM,对原始多模态训练数据预测标签;基于答案评级标签对原始多模态训练数据进行过滤,得到过滤数据集;基于过滤数据集中的所有数据样本的图像标签和指令标签,从过滤数据集中选择数据样本作为采样数据,使基于所有采样数据的图像标签和指令标签确定的标签熵最大化;将采样数据作为训练样本进行多模态大模型的训练。应用本申请,能够利用筛选后的训练数据进行多模态大模型训练,并有效保证多模态大模型的性能。
-
-
-