-
公开(公告)号:CN117876940A
公开(公告)日:2024-04-12
申请号:CN202410270242.6
申请日:2024-03-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/82 , G06N3/0499 , G06N3/08
Abstract: 本发明公开了一种视频语言任务执行及其模型训练方法、装置、设备、介质,应用于视频理解技术领域。其中,方法包括将具有文本标签的视频样本、待学习视频参数和待学习帧参数输入至视频语言模型,视觉语言预训练模型提取视觉特征和参数特征,视频帧适配器基于待学习帧参数,将视觉特征转换为满足视觉语言预训练模型需求的帧视觉信息,视频适配器基于待学习视频参数提取视频视觉信息;根据帧视觉信息、视频视觉信息与文本语义特征之间损失信息,对视频语言模型进行迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术视频语言模型收敛慢,训练耗时耗资源的问题,能够有效提升视频语言模型的训练效率,节省模型训练所需的计算资源。
-
公开(公告)号:CN111914642B
公开(公告)日:2023-09-01
申请号:CN202010614594.0
申请日:2020-06-30
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:将行人重识别训练样本输入至backbone网络,提取特征图;提取特征图的全局特征,计算全局距离;利用目标检测算法确定出特征图中的行人位置;利用行人位置从特征图中提取出行人特征;基于ROI Align技术对行人特征进行归一化处理,得到预设尺寸的行人特征;从归一化后的行人特征中提取局部特征,计算局部距离;利用全局距离和局部距离计算出总距离;计算整个训练过程中产生的损失;重复前述步骤对预建的行人重识别模型进行训练,得到训练后行人重识别模型;当获取到待识别图像,利用训练后行人重识别模型输出识别结果。能够解决局部特征不对齐以及局部特征一对多的问题,从而提升行人重识别的准确度。
-
公开(公告)号:CN111914642A
公开(公告)日:2020-11-10
申请号:CN202010614594.0
申请日:2020-06-30
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:将行人重识别训练样本输入至backbone网络,提取特征图;提取特征图的全局特征,计算全局距离;利用目标检测算法确定出特征图中的行人位置;利用行人位置从特征图中提取出行人特征;基于ROI Align技术对行人特征进行归一化处理,得到预设尺寸的行人特征;从归一化后的行人特征中提取局部特征,计算局部距离;利用全局距离和局部距离计算出总距离;计算整个训练过程中产生的损失;重复前述步骤对预建的行人重识别模型进行训练,得到训练后行人重识别模型;当获取到待识别图像,利用训练后行人重识别模型输出识别结果。能够解决局部特征不对齐以及局部特征一对多的问题,从而提升行人重识别的准确度。
-
公开(公告)号:CN117877125A
公开(公告)日:2024-04-12
申请号:CN202410270243.0
申请日:2024-03-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种动作识别及其模型训练方法、装置、电子设备、存储介质,应用于视频理解技术领域。其中,方法包括将具有动作标签和音频数据的视频样本输入动作识别模型,提取视频样本的视觉特征、文本语义特征及音频特征,对视觉特征、音频特征进行视觉交互和视听交互,并为文本语义特征添加交互特征,得到多模态动作标签特征;根据视觉交互特征、视听交互特征、音频特征与多模态动作标签特征之间的损失,对动作识别模型进行迭代更新。本发明可以解决相关技术精细动作识别差且动作识别任务收敛慢的问题,能够使得动作识别模型更全面地理解和描述精细动作特征,提高动作识别的性能和鲁棒性,还能增强模型扩展性和灵活性。
-
公开(公告)号:CN117765450A
公开(公告)日:2024-03-26
申请号:CN202410186667.9
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉技术领域,具体公开了一种视频语言理解方法、装置、设备及可读存储介质,除视频样本自带的注释文本外,还通过获取如搜索关键词或视频分段信息等视频样本的关联信息,以利用注释文本和关联信息来构建视频样本对应的文本样本,从而弥补视觉模态与文本模态弱相关的问题,在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容;在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码,解决了传统视频语言模型泛化能力差的问题,提升了计算机视觉的视频理解能力,进而可以精确响应视频语言相关问题。
-
公开(公告)号:CN117746441A
公开(公告)日:2024-03-22
申请号:CN202410186665.X
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。
-
公开(公告)号:CN111881757B
公开(公告)日:2023-09-01
申请号:CN202010605966.3
申请日:2020-06-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V40/10 , G06V10/762 , G06V10/774
Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:利用第一行人重识别模型提取原始训练集的特征;其中,所述原始训练集包括行人样本图像和对应的标签信息;根据所述原始数据集的特征空间分布特性,进行聚类;根据聚类结果筛选出困难样本;将所述困难样本添加至所述原始训练集,得到目标训练集;利用所述目标训练集对所述第一行人重识别模型进行训练,得到第二行人重识别模型;当获取到待识别行人图像,则利用所述第二行人重识别模型输出对应的识别结果。这样,挖掘出困难样本,通过挖掘出的困难样本改变原始数据集中的样本空间分布,能够增加对困难样本的关注度,从而提升行人重识别的准确度。
-
公开(公告)号:CN117877125B
公开(公告)日:2024-06-07
申请号:CN202410270243.0
申请日:2024-03-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种动作识别及其模型训练方法、装置、电子设备、存储介质,应用于视频理解技术领域。其中,方法包括将具有动作标签和音频数据的视频样本输入动作识别模型,提取视频样本的视觉特征、文本语义特征及音频特征,对视觉特征、音频特征进行视觉交互和视听交互,并为文本语义特征添加交互特征,得到多模态动作标签特征;根据视觉交互特征、视听交互特征、音频特征与多模态动作标签特征之间的损失,对动作识别模型进行迭代更新。本发明可以解决相关技术精细动作识别差且动作识别任务收敛慢的问题,能够使得动作识别模型更全面地理解和描述精细动作特征,提高动作识别的性能和鲁棒性,还能增强模型扩展性和灵活性。
-
公开(公告)号:CN117765450B
公开(公告)日:2024-05-24
申请号:CN202410186667.9
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉技术领域,具体公开了一种视频语言理解方法、装置、设备及可读存储介质,除视频样本自带的注释文本外,还通过获取如搜索关键词或视频分段信息等视频样本的关联信息,以利用注释文本和关联信息来构建视频样本对应的文本样本,从而弥补视觉模态与文本模态弱相关的问题,在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容;在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码,解决了传统视频语言模型泛化能力差的问题,提升了计算机视觉的视频理解能力,进而可以精确响应视频语言相关问题。
-
公开(公告)号:CN117746441B
公开(公告)日:2024-05-10
申请号:CN202410186665.X
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。
-
-
-
-
-
-
-
-
-