视觉语言模型训练方法、设备、介质及计算机程序产品

    公开(公告)号:CN119229238B

    公开(公告)日:2025-04-29

    申请号:CN202411719465.2

    申请日:2024-11-28

    Abstract: 本发明涉及人工智能视觉处理技术领域,具体公开了视觉语言模型训练方法、设备、介质及计算机程序产品,通过将图像数据集中的各示例图像建立全局视觉特征、前景视觉特征、聚合视觉特征的层级式视觉特征库,在训练视觉语言模型时,利用视觉语言模型的视觉提示器进行层级式筛选,提高查询示例图像的效率以及质量,利用关联示例图像与查询图像之间的相似性损失值以及图像处理结果的处理损失值计算得到模型训练损失值来更新视觉感知模型的参数,实现对视觉语言模型的全局优化,相较于传统方案中采用局部模块适配的方式能够避免陷入局部最优,从而进一步提高图像处理质量。

    视觉语言模型训练方法、设备、介质及计算机程序产品

    公开(公告)号:CN119229238A

    公开(公告)日:2024-12-31

    申请号:CN202411719465.2

    申请日:2024-11-28

    Abstract: 本发明涉及人工智能视觉处理技术领域,具体公开了视觉语言模型训练方法、设备、介质及计算机程序产品,通过将图像数据集中的各示例图像建立全局视觉特征、前景视觉特征、聚合视觉特征的层级式视觉特征库,在训练视觉语言模型时,利用视觉语言模型的视觉提示器进行层级式筛选,提高查询示例图像的效率以及质量,利用关联示例图像与查询图像之间的相似性损失值以及图像处理结果的处理损失值计算得到模型训练损失值来更新视觉感知模型的参数,实现对视觉语言模型的全局优化,相较于传统方案中采用局部模块适配的方式能够避免陷入局部最优,从而进一步提高图像处理质量。

    模型训练方法、视频定位方法、系统、设备、产品及介质

    公开(公告)号:CN118395195A

    公开(公告)日:2024-07-26

    申请号:CN202410853495.6

    申请日:2024-06-28

    Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频数据处理领域,用于解决定位音频事件时将视频模态视作噪声导致定位不准确的问题。获取训练数据集;根据视觉特征得到第一知识图结构,根据音频特征得到第二知识图结构;根据两个知识图结构对第一神经网络模型优化得到目标神经网络模型,目标神经网络模型用于对待处理视频数据进行类别标签定位。本发明通过构建视觉特征和音频特征对应的知识图结构,使用知识图结构优化第一神经网络模型,并未将视觉信息视为噪声,能捕捉和利用音频与视频间的复杂关联关系,能够更好地整合和利用多模态数据,提高得到的目标神经网络模型的定位精度和可靠性。

    视觉问答及其模型训练方法、装置、电子设备、存储介质

    公开(公告)号:CN117892140B

    公开(公告)日:2024-05-31

    申请号:CN202410295706.9

    申请日:2024-03-15

    Abstract: 本发明公开了一种视觉问答及其模型训练方法、装置、电子设备、存储介质,应用于人工智能领域。其中,方法包括获取视觉问答训练样本数据集;将问题‑图像对样本输入至视觉问答模型,图文编码器对问题‑图像对样本进行图文编码处理,交互解码器从接收到的图文编码特征中提取交互对象的语义特征,推理解码器融合接收到的图文编码特征和交互对象特征,并基于融合图文编码特征对应的正确答案‑正确事件知识标签、与从知识库检索的答案、事件知识间的损失不断地迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术无法满足用户高精度问答需求和答案可解释需求的问题,提升了基于场景交互任务中的视觉问答精度,让答案更具有可解释性。

    数据识别方法、模型训练方法、装置、设备及存储介质

    公开(公告)号:CN116756536B

    公开(公告)日:2024-04-26

    申请号:CN202311034853.2

    申请日:2023-08-17

    Abstract: 本发明公开了一种数据识别方法、模型训练方法、装置、设备及存储介质,涉及计算机技术领域,旨在解决传统技术中无法对多源域数据进行快速高效识别的问题,所述数据识别方法应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用所述数据识别模型执行数据识别操作。

    视频语言任务执行及其模型训练方法、装置、设备、介质

    公开(公告)号:CN117876940A

    公开(公告)日:2024-04-12

    申请号:CN202410270242.6

    申请日:2024-03-11

    Abstract: 本发明公开了一种视频语言任务执行及其模型训练方法、装置、设备、介质,应用于视频理解技术领域。其中,方法包括将具有文本标签的视频样本、待学习视频参数和待学习帧参数输入至视频语言模型,视觉语言预训练模型提取视觉特征和参数特征,视频帧适配器基于待学习帧参数,将视觉特征转换为满足视觉语言预训练模型需求的帧视觉信息,视频适配器基于待学习视频参数提取视频视觉信息;根据帧视觉信息、视频视觉信息与文本语义特征之间损失信息,对视频语言模型进行迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术视频语言模型收敛慢,训练耗时耗资源的问题,能够有效提升视频语言模型的训练效率,节省模型训练所需的计算资源。

    一种图像处理方法、装置、系统、设备及计算机存储介质

    公开(公告)号:CN116704296B

    公开(公告)日:2023-11-03

    申请号:CN202310974709.0

    申请日:2023-08-04

    Abstract: 本发明公开了一种图像处理方法、装置、系统、设备及计算机存储介质,涉及图像处理技术领域,应用于目标设备,对目标设备分配得到的图像处理子神经网络模型进行当前轮的训练;计算当前轮训练好的图像处理子神经网络模型的目标函数的局部特征矩阵;判断是否传输当前轮的局部特征矩阵;若是,则传输当前轮的局部特征矩阵至主设备,以使主设备基于当前轮的局部特征矩阵生成当前轮的全局参数;若否,则不传输当前轮的局部特征矩阵至主设备,以使主设备基于上一轮的局部特征矩阵生成当前轮的全局参数;以基于当前轮的全局参数得到训练好的图像处理神经网络模型进行图像处理。目标设备选择性的将局部特征矩阵传输给主设备,提高了处理效率。

    一种行人重识别方法、装置、设备及介质

    公开(公告)号:CN111914642B

    公开(公告)日:2023-09-01

    申请号:CN202010614594.0

    申请日:2020-06-30

    Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:将行人重识别训练样本输入至backbone网络,提取特征图;提取特征图的全局特征,计算全局距离;利用目标检测算法确定出特征图中的行人位置;利用行人位置从特征图中提取出行人特征;基于ROI Align技术对行人特征进行归一化处理,得到预设尺寸的行人特征;从归一化后的行人特征中提取局部特征,计算局部距离;利用全局距离和局部距离计算出总距离;计算整个训练过程中产生的损失;重复前述步骤对预建的行人重识别模型进行训练,得到训练后行人重识别模型;当获取到待识别图像,利用训练后行人重识别模型输出识别结果。能够解决局部特征不对齐以及局部特征一对多的问题,从而提升行人重识别的准确度。

    一种数据识别方法、系统、设备及计算机可读存储介质

    公开(公告)号:CN115905456A

    公开(公告)日:2023-04-04

    申请号:CN202310016221.7

    申请日:2023-01-06

    Abstract: 本申请公开了一种数据识别方法、系统、设备及计算机可读存储介质,应用于信息处理技术领域,获取目标数量个文本数据;对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果;提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到文本数据的目标向量化特征;基于目标向量化特征对文本数据进行聚类,得到聚类结果;基于聚类结果,生成对应的事件模式信息;基于事件模式信息对目标数据进行事件抽取,得到事件信息;基于事件信息对目标数据进行识别,可以高效率的得到识别结果。

    一种模型训练方法、装置、设备、介质及系统

    公开(公告)号:CN115879543A

    公开(公告)日:2023-03-31

    申请号:CN202310194708.4

    申请日:2023-03-03

    Abstract: 本申请公开了计算机技术领域内的一种模型训练方法、装置、设备、介质及系统。本申请在模型迭代过程中,若根据当前迭代次数确定本次迭代需分组,则将异构计算系统内的所有计算节点划分为多个计算组,并使同一计算组内的不同计算节点互联;在每一计算组内确定控制节点,并按照环状拓扑结构连接不同控制节点;控制同一计算组内的不同计算节点以All‑Reduce策略和当前计算组适用的模型优化算法执行本次迭代任务,控制各控制节点以Ring‑All‑Reduce策略执行本次迭代任务。该方案能充分发挥计算节点的特点,提高计算节点间的通信效率和模型训练效率。本申请提供的一种模型训练装置、设备、介质及系统,同样具有上述技术效果。

Patent Agency Ranking