-
公开(公告)号:CN118887375B
公开(公告)日:2025-04-29
申请号:CN202411347904.1
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V10/22 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种数据处理方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取待处理图像;将所述待处理图像输入单图文模型得到对应的文本描述信息,将所述待处理图像输入图像分割模型得到所述待处理图像中的对象类别信息;将所述文本描述信息和所述对象类别信息输入大语言模型,生成多对象关联问答信息,所述多对象关联问答信息包括图像理解信息和对象位置信息;对所述多对象关联问答信息中的对象进行图像回填,得到第一图文数据;将所述待处理图像和所述多对象关联问答信息输入奖励模型,得到检查项分数;根据所述检查项分数确定是否将所述第一图文数据确定为多模态训练数据。
-
公开(公告)号:CN119004099A
公开(公告)日:2024-11-22
申请号:CN202410992374.X
申请日:2024-07-23
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/213 , G06N3/084
Abstract: 本发明提供一种多模态大模型的指令微调数据的选择方法及装置,方法包括:训练一个基于人工反馈的奖励模型并将奖励模型的输出得分最大化作为目标优化多模态大模型,以得到多模态数据集的第一评分公式,奖励模型的输出得分用于对多模态大模型输出结果的质量进行评估;根据低秩适配器和Adam优化器调整第一评分公式,得到第二评分公式;根据第二评分公式,从多模态数据集中获取代表性数据集;从代表性数据集中进行多样性选择,获取既具有代表性,同时具有多样性的多模态大模型的指令微调数据。通过上述方法,使得多模态大模型在进行特定任务训练时,能够获取到高质量的微调数据,提升训练速率。
-
公开(公告)号:CN118820509B
公开(公告)日:2025-02-11
申请号:CN202411297843.2
申请日:2024-09-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06N3/0455 , G06N3/0464 , G06V10/26 , G06V10/82
Abstract: 本发明提供一种图文信息处理方法、装置、设备、存储介质及程序产品,应用于计算机视觉技术领域。该方法包括:获取第一图文信息,所述第一图文信息包括第一文本和第一图像;为所述第一图像添加指示令牌,得到第二图文信息,所述指示令牌包括图像开始令牌和图像结束令牌,所述图像开始令牌位于所述第一图像之前,所述图像结束令牌位于所述第一图像之后;确定所述第一文本对应的文本特征,确定所述第一图像对应的图像特征,确定所述指示令牌对应的令牌特征,并根据所述文本特征、所述图像特征以及所述令牌特征确定输入序列;将所述输入序列输入大语言模型,得到对应的图文理解定位信息。
-
公开(公告)号:CN118797562B
公开(公告)日:2024-12-06
申请号:CN202411282777.1
申请日:2024-09-13
Applicant: 中国科学院自动化研究所
IPC: G06F18/25 , G06N3/0464 , G06V10/26 , G06V10/80 , G06V10/82
Abstract: 本发明提供一种基于多模态多形式统一的多轮图文理解与定位方法及装置,涉及图像数据处理技术领域,方法包括:获取执行图文理解或定位任务的多模态数据,将多模态数据的待处理图像切分为多个图像块;确定多模态数据的待处理文本的文本特征以及图像块的图像序列特征;通过状态空间模型特征提取模块,对图像序列特征进行基于米字形结构方向的2D空间序列扫描,得到扫描序列特征;通过状态空间模型特征处理模块进行基于序列离散化的线性映射,得到离散序列特征后扫描合并,进而与文本特征融合得到多模态融合特征,用于执行图文理解或定位任务。通过本申请,解决神经网络模型在处理输入的长序列或高维度数据时,模型计算复杂度高的缺陷。
-
公开(公告)号:CN118820509A
公开(公告)日:2024-10-22
申请号:CN202411297843.2
申请日:2024-09-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06N3/0455 , G06N3/0464 , G06V10/26 , G06V10/82
Abstract: 本发明提供一种图文信息处理方法、装置、设备、存储介质及程序产品,应用于计算机视觉技术领域。该方法包括:获取第一图文信息,所述第一图文信息包括第一文本和第一图像;为所述第一图像添加指示令牌,得到第二图文信息,所述指示令牌包括图像开始令牌和图像结束令牌,所述图像开始令牌位于所述第一图像之前,所述图像结束令牌位于所述第一图像之后;确定所述第一文本对应的文本特征,确定所述第一图像对应的图像特征,确定所述指示令牌对应的令牌特征,并根据所述文本特征、所述图像特征以及所述令牌特征确定输入序列;将所述输入序列输入大语言模型,得到对应的图文理解定位信息。
-
公开(公告)号:CN111783753B
公开(公告)日:2020-12-15
申请号:CN202010918791.1
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉和模式识别领域,具体涉及一种基于语义一致水平条和前景修正的行人重识别方法,旨在解决现有的行人重实别方法重实别鲁棒性较差的问题。本发明方法包括:获取待识别的图像,作为输入图像;提取输入图像的特征,作为第一特征;基于第一特征,通过行人重识别模型中的行分类器分别获取输入图像中行人对应的前景特征作为第二特征,获取输入图像中行人各设定部位水平条区域的特征作为第三特征;将将第二特征与第三特征进行点对点相乘,并与第一特征拼接,得到第四特征;计算第四特征与图像库中各图像对应特征的欧式距离并排序,将排序结果作为重识别结果进行输出。本发明提高了行人重识别的鲁棒性。
-
公开(公告)号:CN111783753A
公开(公告)日:2020-10-16
申请号:CN202010918791.1
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉和模式识别领域,具体涉及一种基于语义一致水平条和前景修正的行人重识别方法,旨在解决现有的行人重实别方法重实别鲁棒性较差的问题。本发明方法包括:获取待识别的图像,作为输入图像;提取输入图像的特征,作为第一特征;基于第一特征,通过行人重识别模型中的行分类器分别获取输入图像中行人对应的前景特征作为第二特征,获取输入图像中行人各设定部位水平条区域的特征作为第三特征;将将第二特征与第三特征进行点对点相乘,并与第一特征拼接,得到第四特征;计算第四特征与图像库中各图像对应特征的欧式距离并排序,将排序结果作为重识别结果进行输出。本发明提高了行人重识别的鲁棒性。
-
公开(公告)号:CN119204161A
公开(公告)日:2024-12-27
申请号:CN202411182762.8
申请日:2024-08-27
Applicant: 中国科学院自动化研究所
IPC: G06N3/096 , G06N3/0455 , G06N3/084
Abstract: 本发明提供一种基于注意力蒸馏的大模型连续微调方法及装置,方法包括:基于当前任务的训练样本和回放缓存,微调Transformer模型;其中包括:将当前任务的训练样本输入Transformer模型中计算自回归损失,以更新模型参数;将当前任务的回放缓存输入Transformer模型中计算回放损失、预测蒸馏损失和注意力蒸馏损失,以再次更新模型参数,得到更新后的Transformer模型;根据当前任务的训练样本,更新回放缓存,得到下一任务的回放缓存;基于下一任务的训练样本和下一任务的回放缓存,再次微调更新后的Transformer模型。通过上述方法,解决大模型训练过程中,需要借助大量的回放样本来缓解连续微调后大模型在旧任务上严重的性能下降的问题,避免了在模型训练过程需要存储大量的回放样本。
-
公开(公告)号:CN119557470A
公开(公告)日:2025-03-04
申请号:CN202510125430.4
申请日:2025-01-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/55 , G06F16/583
Abstract: 本发明提供一种图文检索方法、装置、设备、存储介质及程序产品,应用于计算机视觉技术领域。该方法包括:获取图像描述文本,并基于所述图像描述文本确定候选图像集合;将所述候选图像集合中的候选图像划分为多个类簇,并确定每个类簇的代表图像;根据所述代表图像生成N个场景问题,并通过与用户交互问答的形式确定所述N个场景问题的场景答案;基于所述场景问题、所述场景答案以及所述图像描述文本生成场景图;基于所述场景图、所述场景问题、所述场景答案以及所述图像描述文本进行相似度检索,得到目标图像;其中,N为大于0的整数。
-
公开(公告)号:CN118887375A
公开(公告)日:2024-11-01
申请号:CN202411347904.1
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V10/22 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种数据处理方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取待处理图像;将所述待处理图像输入单图文模型得到对应的文本描述信息,将所述待处理图像输入图像分割模型得到所述待处理图像中的对象类别信息;将所述文本描述信息和所述对象类别信息输入大语言模型,生成多对象关联问答信息,所述多对象关联问答信息包括图像理解信息和对象位置信息;对所述多对象关联问答信息中的对象进行图像回填,得到第一图文数据;将所述待处理图像和所述多对象关联问答信息输入奖励模型,得到检查项分数;根据所述检查项分数确定是否将所述第一图文数据确定为多模态训练数据。
-
-
-
-
-
-
-
-
-