-
公开(公告)号:CN116415647A
公开(公告)日:2023-07-11
申请号:CN202111641483.X
申请日:2021-12-29
Applicant: 华为云计算技术有限公司
IPC: G06N3/086 , G06N3/0475 , G06N3/094
Abstract: 本申请提供了一种神经网络架构搜索的方法、装置、设备和存储介质,属于深度学习技术领域。该方法包括:接收优化请求,该优化请求包括待优化模型的模型文件和优化要求,优化要求包括性能要求和硬件要求,基于该模型文件,在搜索空间中进行神经架构搜索处理,获得满足优化要求的神经网络架构,返回该神经网络架构。采用本申请,能够使用模型文件进行神经架构搜索,不仅不需要使用公开数据集进行神经架构搜索,而且使得搜索到神经网络架构适合本地业务。
-
公开(公告)号:CN114154641A
公开(公告)日:2022-03-08
申请号:CN202011053283.8
申请日:2020-09-29
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种AI模型的训练方法、装置、计算设备和存储介质,属于人工智能技术领域。该方法应用于AI平台,AI平台与计算资源池相关联,计算资源池包括用于模型训练的计算节点,该方法包括:向用户提供训练配置界面,训练配置界面包括供用户选择的多种训练模式,每种训练模式表示对训练初始AI模型所需的计算节点的一种分配策略,根据用户在训练配置界面的选择,生成至少一个训练任务,执行该至少一个训练任务以对初始AI模型进行训练,获得AI模型,获得的AI模型供用户下载或使用。采用本申请,可以更灵活地执行分布式训练。
-
公开(公告)号:CN117951216A
公开(公告)日:2024-04-30
申请号:CN202211280467.7
申请日:2022-10-19
Applicant: 华为云计算技术有限公司
Abstract: 本申请实施例提供了一种数据处理的系统及数据处理的方法,该数据处理的系统应用于分布式数据处理场景,该系统包括n个计算节点和m组交换机,该n个计算节点中的每个计算节点包括m组网口,每个计算节点的第i组网口与m组交换机中的第i组交换机相连,m组交换机中的每组交换机构成一个通信网络,m组交换机相互独立。本申请实施例的方案可以通过引入多组交换机实现集群规模的横向扩展,从而提高集群规模的上限。
-
公开(公告)号:CN113361680B
公开(公告)日:2024-04-12
申请号:CN202010290428.X
申请日:2020-04-14
Applicant: 华为云计算技术有限公司
IPC: G06N3/0464 , G06N3/044 , G06N3/08
Abstract: 本申请提供了一种神经网络架构搜索方法,应用于搜索系统,搜索系统包括生成器和搜索器,该方法包括:生成器根据搜索空间生成多个神经网络架构,搜索器获取根据多个神经网络架构获得的多个子模型在第一硬件上的评价指标值,搜索器根据多个子模型对应的神经网络架构和多个子模型在第一硬件上的评价指标值,确定满足预设条件的第一目标神经网络架构。如此,实现了不同初始子模型训练过程的解耦以及神经网络架构搜索过程和初始子模型训练过程的解耦,缩短了搜索时长,提高了搜索效率。
-
公开(公告)号:CN108369531B
公开(公告)日:2023-06-02
申请号:CN201680056237.9
申请日:2016-07-12
Applicant: 华为云计算技术有限公司
IPC: G06F9/50
Abstract: 本发明实施例提供一种控制IO带宽和处理IO访问请求的方法、装置及系统,涉及存储技术领域,分配IO带宽的方式比较灵活。该控制IO带宽的方法应用于包括名称节点和至少一个数据节点的分布式文件系统。该方法包括:名称节点确定该至少一个数据节点中每个数据节点的IO带宽和第一租户的IO带宽;名称节点基于该至少一个数据节点中每个数据节点的IO带宽以及第一租户的IO带宽,指示该至少一个数据节点为第一租户分配该至少一个IO带宽,其中,该至少一个IO带宽与该至少一个数据节点一一对应,该至少一个IO带宽中的每个IO带宽大于0,且小于或者等于对应的数据节点的IO带宽。
-
公开(公告)号:CN115712830A
公开(公告)日:2023-02-24
申请号:CN202110963715.7
申请日:2021-08-20
Applicant: 华为云计算技术有限公司
IPC: G06F18/214 , G06N3/0464 , G06N3/06 , G06N20/00
Abstract: 本申请涉及人工智能技术领域,提供了一种AI模型的分布式训练方法和相关设备,其中方法应用于AI平台,所述AI平台与计算资源池相关联,所述计算资源池包括用于所述AI模型分布式训练的多个计算节点,所述多个计算节点中的每个计算节点执行所述AI模型分布式训练的一个训练任务;所述方法包括:对第一计算节点进行故障隔离,所述第一计算节点为所述多个计算节点中发生故障的计算节点;确定第二计算节点,所述第二计算节点为所述计算资源池中除所述多个计算节点之外的计算节点;配置所述第二计算节点,以使所述第二计算节点替代所述第一计算节点执行训练任务。本申请实施例能够降低故障恢复的时长。
-
公开(公告)号:CN114819046A
公开(公告)日:2022-07-29
申请号:CN202110124725.1
申请日:2021-01-29
Applicant: 华为云计算技术有限公司
Abstract: 本申请公开了一种神经网络的训练方法及其装置、计算机设备、存储介质,属于人工智能AI技术领域。该方法包括:获取训练数据集和待训练神经网络,其中,训练数据集中包括多个训练样本;利用训练数据集中的多个训练样本对待训练神经网络进行迭代训练,在迭代训练的过程中:获取第N次迭代过程中向待训练神经网络输入的训练样本,及待训练神经网络在第N次迭代过程中针对训练样本的输出结果,其中,N为正整数;基于第N次迭代过程中的训练样本和输出结果,确定第N次迭代过程中使用的动量系数;基于动量系数,在第N次迭代过程中对待训练神经网络的参数进行更新。本申请提高了对神经网络进行训练的训练效率。
-
公开(公告)号:CN114765615A
公开(公告)日:2022-07-19
申请号:CN202011601441.9
申请日:2020-12-30
Applicant: 华为云计算技术有限公司
IPC: H04L67/1095 , G06K9/62
Abstract: 一种多集群参数同步方法及装置,用于解决现有技术中单一集群无法满足当前较大规模训练作业的需求的问题。在本申请中包括N轮集群间同步;其中,N轮集群间同步中的第I轮集群间同步,包括:第一同步节点获取m个集群分别对应的待同步参数,任一集群对应的待同步参数是该集群根据第I‑1轮集群间同步后的参数确定的,m个集群包括第一集群和m‑1个第二集群,第一集群是m个集群中的任一个,第一同步节点是第一集群中n个计算节点的任一个;第一同步节点根据m个集群分别对应的待同步参数,确定第I轮集群间同步后的参数,m、n均为大于1的正整数,N、I均为大于0的正整数。
-
公开(公告)号:CN114757244A
公开(公告)日:2022-07-15
申请号:CN202011566357.8
申请日:2020-12-25
Applicant: 华为云计算技术有限公司
Abstract: 本申请公开了一种模型训练方法、装置、存储介质及设备,属于AI领域。在本申请实施例中,可以获得神经网络模型对应的梯度信息,然后根据梯度信息对第一训练数据子集中的训练数据进行评估,获得评估结果,最后根据评估结果调整索引表。这样,调整后的索引表用于在下一个回合获取第二训练数据子集。也即,本申请实施例可以实现在训练的过程中根据梯度信息动态调整索引表,进而可以在下一回合中根据索引表读取相应的第二训练数据子集。通过在每个回合对训练数据进评估,动态调整训练过程中的训练数据集,使得在模型的训练过程中能更快地达到训练目标,节约训练时长和训练消耗的算力。
-
-
-
-
-
-
-
-