-
公开(公告)号:CN113656563B
公开(公告)日:2024-06-28
申请号:CN202110803202.X
申请日:2021-07-15
Applicant: 华为技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/295 , G06F40/30 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N20/00
Abstract: 本申请涉及人工智能领域,公开了一种神经网络搜索方法以及相关装置,其中神经网络搜索方法包括:在进行模型搜索时,通过对多个候选算子进行采样的方式来构建transformer层中的注意力头head,以此构建多个候选神经网络,并对多个候选神经网络进行性能比较,来选择性能较高的目标神经网络。本申请结合模型搜索来构建transformer模型,能生成相比原自注意力机制性能更优的新型注意力结构,在广泛的下游任务的效果提升明显。
-
公开(公告)号:CN115879508A
公开(公告)日:2023-03-31
申请号:CN202211214438.0
申请日:2022-09-30
Applicant: 华为技术有限公司
IPC: G06N3/0464 , G06N3/084
Abstract: 一种数据处理方法,应用于人工智能领域,方法包括:根据目标映射关系,确定目标词向量对应的一个或多个目标网络单元以及存储地址,存储地址对应的存储空间位于计算单元之外的存储空间;从存储空间中获取一个或多个目标网络单元;根据目标词向量,通过计算单元执行根据一个或多个目标网络单元构建的神经网络对应的训练过程。本申请中由于大规模模型中的目标网络单元存储在计算单元之外的存储位置,在当前的训练样本为对应的词向量时,从计算单元之外的存储位置中提取对应的一个或多个目标网络单元,由于计算单元之外的存储位置的存储空间可以设置的较大,通过存算分离,可以提高训练时大规模模型自身的大小,并增加大规模模型的可扩展性和灵活度。
-
公开(公告)号:CN116579403A
公开(公告)日:2023-08-11
申请号:CN202210111721.4
申请日:2022-01-29
Applicant: 华为技术有限公司
Abstract: 本申请涉及人工智能领域,公开了一种数据处理方法,方法包括:通过目标神经网络,处理目标数据,以得到数据处理结果,目标神经网络的目标header用于通过第一变换矩阵对第一子数据对应的第一向量进行处理,以及通过第二变换矩阵对第一子数据对应的第二向量进行处理;第一向量对应于第一子数据在目标数据中的位置信息,第二向量对应于第一子数据的语义信息。本申请将位置向量所对应的变换矩阵的矩阵尺寸大小设置为小于语义向量所对应的矩阵的尺寸大小,也就是第一变换矩阵的尺寸小于第二变换矩阵的尺寸。可以降低位置信息之间的关联度计算时所采用的变换矩阵的尺寸大小,从而降低了模型在推理或者训练过程中的计算资源的开销。
-
公开(公告)号:CN117556917A
公开(公告)日:2024-02-13
申请号:CN202310511006.4
申请日:2023-05-06
IPC: G06N20/00
Abstract: 一种数据处理方法,应用于人工智能领域,方法包括:获取第一数据,第一数据为神经网络中目标参数的更新梯度对应的一阶矩估计的置信度矩阵;从存储单元中读取第二数据以及第三数据;第二数据对应于置信度矩阵的行向量因子,第三数据对应于置信度矩阵的列向量因子;根据第一数据分别更新第二数据以及第三数据,得到更新后的第二数据以及更新后的第三数据;更新后的第二数据以及更新后的第三数据用于融合得到第四数据;根据第四数据调整一阶矩估计,并利用调整后的一阶矩估计更新目标参数。本申请通过第四数据来修正一阶矩估计,从而可以得到更准确的一阶矩估计,进而降低参数更新过程中训练结果的损失,提高模型的收敛速度。
-
公开(公告)号:CN116541492A
公开(公告)日:2023-08-04
申请号:CN202310361510.0
申请日:2023-03-30
Applicant: 华为技术有限公司
IPC: G06F16/332 , G06N3/045 , G06N5/04
Abstract: 一种数据处理方法,应用于自然语言处理领域,方法包括:获取多个第一字符串;不同的第一字符串对应于不同的用户请求;将多个第一字符串拼接为第一输入数据;第一输入数据包括多个长度相同的向量,每个向量包括至少一个第一字符串,每个向量的长度为预设的固定长度,第一输入数据中包括的向量数量为预设的固定数量,其中,至少一个向量包括不属于多个第一字符串且用于将向量的长度补全为固定尺寸的字符;将第一输入数据整体作为一个输入数据,输入到语言模型。本申请保证了每次输入到语言模型的输入数据的尺寸保持静态一致的情况下,输入数据为基于多个用户请求的字符串拼接得到的,使得语言模型可以一次性处理多个用户请求,提高了处理效率。
-
公开(公告)号:CN112541159A
公开(公告)日:2021-03-23
申请号:CN202011063706.4
申请日:2020-09-30
Applicant: 华为技术有限公司
Abstract: 本申请涉及人工智能领域,公开了一种模型训练方法,包括:获取待训练的第一神经网络模型,所述第一神经网络模型包括第一算子,所述第一算子用于将输入数据与目标权重矩阵进行乘积运算;将所述第一神经网络模型中的所述第一算子替换为第二算子,以得到第二神经网络模型,其中,所述第二算子用于将输入数据与多个子权重矩阵进行乘积运算,所述多个子权重矩阵为对所述目标权重矩阵进行矩阵分解得到的;对所述第二神经网络模型进行模型训练,得到目标神经网络模型。本申请将目标权重矩阵拆分为多个子权重矩阵的乘积,使得训练设备在进行输入数据与多个子权重矩阵的乘积运算所需的时间较小,进而减少了模型训练时间。
-
公开(公告)号:CN117422122A
公开(公告)日:2024-01-19
申请号:CN202310492136.8
申请日:2023-05-04
IPC: G06N3/084 , G06N3/0455 , G06N3/0464
Abstract: 本申请公开了一种模型训练方法及其相关设备,可降低模型的训练过程所需的总时间成本。本申请的方法包括:在待训练模型的第t次迭代中,得到待训练模型的第N层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的全局梯度范数的移动平均值MGGN,对第N层在第t次迭代中的梯度进行归一化,从而得到第N层在第t次迭代中的归一化后的梯度,以此类推,得到第1层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的MGGN,对第1层在第t次迭代中的梯度进行归一化,从而得到第1层在第t次迭代中的归一化后的梯度。如此一来,可基于第1层至第N层在第t次迭代中的归一化后的梯度,对第1层至第N层的参数进行更新,从而完成了待训练模型的第t次迭代。
-
公开(公告)号:CN113656563A
公开(公告)日:2021-11-16
申请号:CN202110803202.X
申请日:2021-07-15
Applicant: 华为技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08 , G06N20/00
Abstract: 本申请涉及人工智能领域,公开了一种神经网络搜索方法以及相关装置,其中神经网络搜索方法包括:在进行模型搜索时,通过对多个候选算子进行采样的方式来构建transformer层中的注意力头head,以此构建多个候选神经网络,并对多个候选神经网络进行性能比较,来选择性能较高的目标神经网络。本申请结合模型搜索来构建transformer模型,能生成相比原自注意力机制性能更优的新型注意力结构,在广泛的下游任务的效果提升明显。
-
-
-
-
-
-
-