-
公开(公告)号:CN112541584A
公开(公告)日:2021-03-23
申请号:CN201910897718.8
申请日:2019-09-23
Applicant: 无锡江南计算技术研究所
IPC: G06N3/08
Abstract: 本发明公开一种深度神经网络模型并行模式选择方法,包括以下步骤:S1、测算整个神经网络模型的总数据量;S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量,如果不超过,执行S3,如果超过,执行S4;S3、选择数据并行模式;S4、将神经网络模型的网络层进行切分,根据切分的结果,得到神经网络模型所需要分布的计算节点数量,如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上,执行S5,否则执行S6;S5、选择模型并行模式;S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析,实现分布式扩展并行模式的自动选择,并且保证较高的并行性能。
-
公开(公告)号:CN112486576A
公开(公告)日:2021-03-12
申请号:CN201910863423.9
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种大规模并行作业的规模动态扩展控制方法,包括以下步骤:S1、申请分配可以用于并行作业的规模扩展的空闲计算资源集合;S2、在新分配的计算资源上,启动作业控制程序;S3、在新分配的计算资源上,启动新的作业任务进程;S4、通知作业系统本进程可以与原来使用的计算资源上的作业任务进程合并;S5、作业系统收到S4中请求后,将原作业任务的进程信息与新分配计算资源上启动的新作业任务的进程信息汇总;S6、作业系统通知可以进行规模扩展处理;S7、重构作业运行时环境。本发明在不终止作业的基础上通过较小的开销动态扩展作业的规模,避免了终止作业带来的计算机时损失和用户体验降低,提升了大规模并行系统的可用性与资源利用率。
-
公开(公告)号:CN112100019A
公开(公告)日:2020-12-18
申请号:CN201910863431.3
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种面向大规模系统的多源故障协同分析定位方法,包括以下步骤:S1、对各故障监测模块采集到的故障进行统一分类,给每个故障定义一个故障编码Fid,给每个故障定义上下关联列表Fuplist和Fdownlist,上关联列表Fuplist包含一组会诱发该故障的故障编码Fid,下关联列表Fdownlist包含一组该故障会诱发的故障的Fid;S2、故障分析系统接收来自各故障监测模块发送过来的故障,形成一个当前故障列表;S3、故障分析系统对当前故障列表进行上下关联分析;S10、故障分析系统实现对一个故障Fk的精确定位,跳转S4。本发明提高了系统故障自动分析定位能力,解决了大规模并行系统故障的准确定位难题。
-
公开(公告)号:CN105468456B
公开(公告)日:2019-04-23
申请号:CN201510828332.3
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 一种基于可变网络拓扑的并行作业资源调度方法,包括:通过系统计算网络的网络监控发现系统网络拓扑发生变化;网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求。
-
-
-