-
公开(公告)号:CN118552659A
公开(公告)日:2024-08-27
申请号:CN202310132466.6
申请日:2023-02-17
Applicant: 华为云计算技术有限公司
IPC: G06T11/60 , G06T11/40 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06N3/088
Abstract: 一种文本生成图像的方法、模型训练方法及装置,涉及人工智能领域,用于提高处理效率,提升生成图像的质量。本申请设计一种图像Token解码器,在预测图像的Token序列时,采用划分L型区块的方式,按照L型区块邻接的方式,按照顺序迭代解码各个L型区块包括的Token序列。由于下一个预测的L型区块与已预测的Token序列在空间上具有相关性,从而可以提高生成的图像质量。另外,无需每次都预测图像的所有图像块的Token,从而可以提高预测的效率。
-
公开(公告)号:CN117473332A
公开(公告)日:2024-01-30
申请号:CN202210848576.8
申请日:2022-07-19
Applicant: 华为云计算技术有限公司
IPC: G06F18/22 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06V20/70 , G06V10/82 , G06F40/30 , G06F16/583 , G06F16/532 , G06F16/332 , G06F16/33 , G06V10/764
Abstract: 本申请实施例公开一种数据的处理方法以及相关设备,该方法可用于人工智能领域中,方法包括:获取第一图像中每个图像区域的特征信息,第一图像包括多个图像块,每个图像区域包括至少两个相邻的图像块;获取第一文本中每个对象描述信息的特征信息,对象描述信息包括对象的类别;根据每个图像区域的特征信息和每个对象描述信息的特征信息,通过第一神经网络生成第一指示信息,第一指示信息指示任意一个图像区域和任意一个对象描述信息之间的相似度。在图像区域和对象描述信息这一粒度计算特征信息之间的相似度,更能准确的反映图像区域和对象描述信息在语义上的相似度,进而有利于准确反映图像的语义和文本的语义之间的关系。
-
公开(公告)号:CN117828340A
公开(公告)日:2024-04-05
申请号:CN202211181895.4
申请日:2022-09-27
Applicant: 华为云计算技术有限公司
IPC: G06F18/214 , G06F18/22
Abstract: 本申请提供了一种模型训练的方法,用于提高多模态识别模型的泛用性。其中,模型训练方法包括:获取第一训练数据集,所述第一训练数据集包括多组用于描述第一类对象的多模态数据;基于第一模型和所述第一训练数据集确定第一参数,所述第一模型用于对不同模态数据进行相似度识别,所述第一参数根据所述第一模型对不同的所述第一类对象的不同模态数据之间的相似度识别结果确定;根据所述第一参数和所述第一训练数据集训练所述第一模型,得到第二模型,所述第二模型用于对所述第一类对象的不同模态数据进行相似度识别。另外,本申请还提供了对应的装置、计算设备集群、芯片、计算机可读存储介质以及计算机程序产品。
-
公开(公告)号:CN115964632A
公开(公告)日:2023-04-14
申请号:CN202110977566.X
申请日:2021-08-24
Applicant: 华为云计算技术有限公司
IPC: G06F18/214 , G06N3/0464 , G06N5/04 , G06N20/00
Abstract: 本申请提供了一种构建人工智能(AI)集成模型的方法,包括:获取训练数据集、初始图网络模型和多个基模型,然后利用训练数据集中的训练数据和多个基模型,迭代训练初始图网络模型,获得图网络模型,接着将图网络模型和多个基模型构建为AI集成模型,其中,图网络模型的输入为由多个基模型的输出构成的图结构。由于图网络模型在对图结构进行处理时,会考虑图结构中各节点的邻居节点,因此,图网络模型在对多个基模型的输出进行融合时,充分考虑了各个基模型之间的差异性和相关性,由此根据AI集成模型中的多个基模型和图网络模型获得的特征在用于AI任务的处理时,可以提高AI任务的执行结果的精度。
-
公开(公告)号:CN112446270B
公开(公告)日:2024-05-14
申请号:CN201910839017.9
申请日:2019-09-05
Applicant: 华为云计算技术有限公司
IPC: G06V40/10 , G06V10/774
Abstract: 本申请提供了行人再识别网络的训练方法、行人再识别方法和装置。涉及人工智能领域,具体涉及计算机视觉领域。该方法包括:获取M个训练图像和该M个训练图像的标注数据;对行人再识别网络的网络参数进行初始化处理,以得到所述行人再识别网络的网络参数的初始值;将M个训练图像中的一批训练图像输入到行人再识别网络进行特征提取,得到这一批训练图像中的每个训练图像的特征向量,然后根据这一批训练图像的特征向量确定损失函数,并根据损失函数的函数值得到满足预设要求的行人再识别网络。本申请可以在单图像拍摄设备标注数据情况下训练出性能较好的行人再识别网络。
-
公开(公告)号:CN112561028B
公开(公告)日:2024-10-22
申请号:CN201910914033.X
申请日:2019-09-25
Applicant: 华为云计算技术有限公司
IPC: G06N3/045 , G06N3/0464 , G06N3/084 , G06N3/0985
Abstract: 本申请属于人工智能领域的计算机视觉领域。本申请提供了一种训练神经网络模型的方法,包括:获取多个构建单元以及待训练数据;堆叠多个构建单元得到初始神经网络模型,初始神经网络模型的参数包括结构参数以及权重参数;将待训练数据输入初始神经网络模型,并根据第一损失函数对权重参数求二阶梯度得到的梯度值,对结构参数进行更新,以得到满足预设要求、用于识别多媒体数据的神经网络模型,第一损失函数用于对权重参数更新。本申请提供一种训练神经网络模型的方法、数据处理的方法及设备,目的在于提供一种精确识别多媒体数据的方法。
-
公开(公告)号:CN111401516B
公开(公告)日:2024-04-26
申请号:CN202010109184.0
申请日:2020-02-21
Applicant: 华为云计算技术有限公司
IPC: G06N3/0464 , G06N3/045 , G06N3/084 , G06V10/82 , G06V10/44 , G06V10/764
Abstract: 本申请实施例公开了一种神经网络通道参数的搜索方法及相关设备,首次提出一种基于算力(如FLOPs)的使用效率的神经网络通道参数搜索方法,其应用于人工智能领域,首先计算网络各层对算力的使用效率,然后增加算力的使用效率高的层的通道数,减少算力的使用效率低的层的通道数,该过程可迭代进行,最终获得对算力的使用效率非常高效的神经网络,缓解了目前神经网络通道参数搜索方法没有充分考虑到复杂度、使用效率低、搜索速度慢等问题。本申请还提出了一种计算神经网络各层对算力的使用效率的方法,该方法以一定比例随机丢弃部分通道并测试其对网络性能的影响,丢弃的通道对于不同测试样例是随机的,以此计算神经网络每层对算力的使用效率。
-
公开(公告)号:CN117423023A
公开(公告)日:2024-01-19
申请号:CN202210812021.8
申请日:2022-07-11
Applicant: 华为云计算技术有限公司
IPC: G06V20/40 , G06V20/62 , G06V30/262 , G06V30/19
Abstract: 一种视频情感定位方法及装置,涉及AI技术领域。该方法中包括:将待处理的视频划分为多个片段,以及获取各个片段的视频特征、及各个片段对应的字幕的字幕特征,然后根据各个片段的视频特征和各个片段对应的字幕的字幕特征,利用情感识别模型获得各个片段对应各个情感的概率,最后根据各个片段对应各个情感的概率,确定各个情感在该视频中对应的片段。该方法中情感识别模型融合片段的视频特征和片段对应的字幕特征进行情感识别,可以通过视频和字幕之间固有的语义一致性提高情感识别的准确性。
-
公开(公告)号:CN114462290A
公开(公告)日:2022-05-10
申请号:CN202110173151.7
申请日:2021-02-08
Applicant: 华为云计算技术有限公司
IPC: G06F30/27 , G06N3/08 , G06K9/62 , G06F16/58 , G06F16/583
Abstract: 本申请实施例涉及一种生成预训练AI模型的方法,包括:确定多个原始图像,根据表观特征提取模型确定各个原始图像所对应的表观特征。之后,根据各个原始图像对应的表观特征和原始标签,对每个原始图像生成相应的伪标签。然后,采用携带伪标签的原始数据对第一初始AI模型进行训练,得到预训练AI模型。本申请通过采用具有较强泛化能力的表观特征提取模型,提取原始图像的表观特征,再基于表观特征结合原始图像预先存储的原始标签生成伪标签。伪标签则具备了表观特征和人工语义,使得采用携带伪标签的原始图像训练得到的预训练AI模型继承了具有泛化能力的表观特征,又具有细粒度更丰富的特征捕捉能力。
-
-
-
-
-
-
-
-