-
公开(公告)号:CN110222007B
公开(公告)日:2023-11-24
申请号:CN201910536855.9
申请日:2019-06-20
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种基于申威众核处理器的加速运行方法,包括:A、判断程序段A、程序段B、程序段C之间的程序上下文依赖关系;如果程序段A、程序段B、程序段C三者之间都存在程序上下文依赖关系,则顺序执行;否则,调整程序段A、程序段B、程序段C之间的执行顺序,进行执行;B、对连续的后三段程序段执行步骤A直至执行完所有的程序。本发明判断程序段以及程序子段之间的程序上下文依赖关系,分情况灵活处理,引入了通信锁同步机制,节省了主核等待时间,实现了主核和核组的并行处理,程序执行过程中,减少了对spawn和join核组线程的需要次数,提高了程序的执行效率。
-
公开(公告)号:CN116909741A
公开(公告)日:2023-10-20
申请号:CN202310878440.6
申请日:2023-07-18
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F9/50 , G06F15/173
Abstract: 本发明涉及一种基于新一代申威众核处理器提高从核并行写共享主存临界资源速度的方法及系统,包括:从核在其私有的局部数据存储器上申请数据空间;将主存储器内的临界资源数据拷贝到各自的私有的局部数据存储器上;各从核进行读写操作;各从核通过远程内存访问(RMA)通道,发起规约操作,规约操作是指将多个从核私有的局部数据存储器内的临界资源数据进行某种聚合函数运算,得到一个最终结果;通过直接内存访问(DMA)通道,将私有的局部数据存储器内规约操作后的临界资源数据写回主存储器。本发明的方法可以有效提高申威众核处理器从核读写共享主存临界资源的速度,提高超级计算机的性能和效率。
-
公开(公告)号:CN115952385A
公开(公告)日:2023-04-11
申请号:CN202310224172.6
申请日:2023-03-10
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明公开了一种用于大规模稀疏方程组求解的并行超节点排序方法及系统,涉及高性能计算技术领域,针对在稀疏矩阵LU分解过程中生成的超级节点块状矩阵,基于二维进程网格,按照块状矩阵的行和列循环映射矩阵数据,将该块状矩阵的上三角部分数据通过转置映射到处理下三角部分数据的进程中,同时采用动态分配资源的策略,根据实际映射到进程的行矩阵块的数量,为每个进程网格中的进程分配内存,以此节省大量的内存空间,提高内存扩展性,并提高稀疏矩阵求解的规模扩展性,解决现有排序方法无法适用于求解大规模稀疏线性方程组的问题。
-
公开(公告)号:CN110262884B
公开(公告)日:2023-03-24
申请号:CN201910536853.X
申请日:2019-06-20
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种基于申威众核处理器的核组内多程序多数据流分区并行的运行方法,本发明根据不同程序段之间的依赖关系,将多个可并行优化程序段放入同一核组执行,在同一核组内部,可以选择同步或者异步执行多个程序段;根据同一程序段内不同程序子段之间的依赖关系,在同一核组内部,可以选择并行执行多个程序子段。此种方法可以减少核组spawn与join的次数,减少主核与核组之间DMA传输的次数,重复利用核组中的数据,从而提高程序的运行效率。
-
公开(公告)号:CN114970294A
公开(公告)日:2022-08-30
申请号:CN202210922499.6
申请日:2022-08-02
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明属于数据处理技术领域,提供了基于神威架构的三维应变仿真PCG并行优化方法及系统,该方案通过对弹性体三维应变仿真PCG迭代算法数据划分优化、从核访存优化、双缓冲优化策略、任务并行与数据并行结合优化、从核间RMA通信优化,该方法为针对神威新一代超算平台开发、移植或优化应变弹性固体的平衡仿真程序的开发人员提供了一种通用的优化方法。
-
公开(公告)号:CN112181894A
公开(公告)日:2021-01-05
申请号:CN201910599786.6
申请日:2019-07-04
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种基于申威众核处理器的核组内分组自适应调整运行方法,包括:(1)对核组的资源进行分组:当从核阵列只接收了一个程序段,则不进行从核阵列的数量分组,否则,如果从核阵列接收了n个无程序上下文依赖关系的程序段,n>1,则将从核阵列中的64个从核平均分成n组,分别分配给这n个程序段;(2)监控从核阵列运行状态、从核阵列的分组I/O情况,并将获得的监控信息发送至从核阵列可分组算法;(3)对传送的监控信息进行实时评估,根据评估结果对各并行应用程序段使用的从核数量进行实时调整;(4)周期性的执行上述步骤(1)至步骤(3),使被调整的并行程序段达到核组内从核计算资源利用率和I/O带宽利用率的均衡。
-
-
-
-
-