-
公开(公告)号:CN117472448A
公开(公告)日:2024-01-30
申请号:CN202311829650.2
申请日:2023-12-28
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F9/38 , G06F15/163
Abstract: 本发明涉及一种申威众核处理器从核簇加速并行方法、设备及介质,属于电子信息技术领域;包括:应用程序优化阶段:对应用程序进行优化;输入导入阶段:将各从核所需的输入条件从主存储器传入LDM连续共享空间;计算与RMA传输阶段:计算从核即刻开始执行计算任务;从核将计算结果传输到主存储器时,由汇总从核将计算结果读取到本地LDM;汇总与整理阶段:汇总从核读取完计算从核此时的计算结果后进行整理;DMA传输阶段:将计算结果传输至主存储器中;重复执行上述阶段直到当前迭代次数达到预先设定的迭代总次数。本发明提供了适合处理以上情况的多种优化方法,拥有明显的加速效果,减少了使用难度,提高了用户体验。
-
公开(公告)号:CN110262900B
公开(公告)日:2023-09-29
申请号:CN201910536896.8
申请日:2019-06-20
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种基于申威众核处理器的主核与核组之间通信锁同步运行加速方法,包括步骤如下:A、判断程序段A、程序段B、程序段C之间的程序上下文依赖关系;如果程序段A、程序段B、程序段C三者之间都存在程序上下文依赖关系,则顺序执行;否则,调整程序段A、程序段B、程序段C之间的执行顺序,进行执行;B、对连续的后三段程序段执行步骤A直至执行完所有的程序。本发明判断程序段之间的程序上下文依赖关系,分情况灵活处理,还引入了“通信锁”同步机制,节省了主核等待时间,实现了主核和核组的并行处理,程序执行过程中,减少了对spawn和join核组线程的需要次数,提高了程序的执行效率。
-
公开(公告)号:CN111679859B
公开(公告)日:2023-08-18
申请号:CN202010528438.2
申请日:2020-06-11
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种面向I/O密集型高性能应用的自动化并行MPI‑I/O加速方法,将用户提交作业设置的进程,利用MPI通信器分成两个通信域,一组是计算进程,另一组是服务进程,I/O服务进程的数量是用户根据I/O密集程度配置,用于处理计算进程上数据输出的任务。计算进程主要处理数值计算任务,在数值计算过程中生成的所有I/O请求都将转发到服务进程。因此,计算进程可以连续执行,不用等待I/O完成。I/O服务进程在内存中形成一个缓冲池,多次缓冲之后,通过调用底层接口将数据写入文件。本发明可以最大程度上提升I/O密集型应用的I/O性能。
-
公开(公告)号:CN112181894B
公开(公告)日:2022-05-31
申请号:CN201910599786.6
申请日:2019-07-04
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种基于申威众核处理器的核组内分组自适应调整运行方法,包括:(1)对核组的资源进行分组:当从核阵列只接收了一个程序段,则不进行从核阵列的数量分组,否则,如果从核阵列接收了n个无程序上下文依赖关系的程序段,n>1,则将从核阵列中的64个从核平均分成n组,分别分配给这n个程序段;(2)监控从核阵列运行状态、从核阵列的分组I/O情况,并将获得的监控信息发送至从核阵列可分组算法;(3)对传送的监控信息进行实时评估,根据评估结果对各并行应用程序段使用的从核数量进行实时调整;(4)周期性的执行上述步骤(1)至步骤(3),使被调整的并行程序段达到核组内从核计算资源利用率和I/O带宽利用率的均衡。
-
公开(公告)号:CN111679859A
公开(公告)日:2020-09-18
申请号:CN202010528438.2
申请日:2020-06-11
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种面向I/O密集型高性能应用的自动化并行MPI-I/O加速方法,将用户提交作业设置的进程,利用MPI通信器分成两个通信域,一组是计算进程,另一组是服务进程,I/O服务进程的数量是用户根据I/O密集程度配置,用于处理计算进程上数据输出的任务。计算进程主要处理数值计算任务,在数值计算过程中生成的所有I/O请求都将转发到服务进程。因此,计算进程可以连续执行,不用等待I/O完成。I/O服务进程在内存中形成一个缓冲池,多次缓冲之后,通过调用底层接口将数据写入文件。本发明可以最大程度上提升I/O密集型应用的I/O性能。
-
公开(公告)号:CN118760539B
公开(公告)日:2024-12-20
申请号:CN202411252587.5
申请日:2024-09-09
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F9/54 , G06F11/14 , G06F15/173
Abstract: 本发明涉及基于新一代神威超级计算机的多进程协同数据收集方法,属于电子信息技术领域;包括:处理器内部通过小规模的树形通信,将处理器内部的六个进程的数据,全部收集到处理器中的局部根节点,实现数据的第一次打包操作;建立偏移量数组备份,用于在消息传递的最顶层确定要申请的缓存区的大小,交换彼此收集数据的大小信息;将整个处理器中第一次打包操作后汇集的数据依次存放到自己的消息缓冲区中,按需取用,节省缓冲区,实现数据的二次打包操作,以减少进程间消息通信次数,减少了进程间通信耗时。
-
公开(公告)号:CN118860672A
公开(公告)日:2024-10-29
申请号:CN202411345437.9
申请日:2024-09-26
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明涉及基于申威众核处理器的从核阵列自主抢占式负载均衡方法,属于电子信息的技术领域,包括:1)针对大规模任务,采用分治法进行分解;2)对于得到的小规模任务,进行动静态混合的任务划分;在静态任务区中,采用均匀分配方式,在动态任务区中,采用动态分配方式;3)将动态任务区的每个任务执行信息映射到一个标识缓冲区中;同时采用双缓冲的策略,通过配置两个标识缓冲区,实现在执行本轮任务的同时将下一轮使用的缓冲区重置;在从核成功获取到要执行的任务执行信息后,使用DMA的方式,将在动态任务区中读取到的任务在本从核的LDM私有空间中进行计算。本发明具有比较明显的加速效果。
-
公开(公告)号:CN118760539A
公开(公告)日:2024-10-11
申请号:CN202411252587.5
申请日:2024-09-09
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F9/54 , G06F11/14 , G06F15/173
Abstract: 本发明涉及基于新一代神威超级计算机的多进程协同数据收集方法,属于电子信息技术领域;包括:处理器内部通过小规模的树形通信,将处理器内部的六个进程的数据,全部收集到处理器中的局部根节点,实现数据的第一次打包操作;建立偏移量数组备份,用于在消息传递的最顶层确定要申请的缓存区的大小,交换彼此收集数据的大小信息;将整个处理器中第一次打包操作后汇集的数据依次存放到自己的消息缓冲区中,按需取用,节省缓冲区,实现数据的二次打包操作,以减少进程间消息通信次数,减少了进程间通信耗时。
-
公开(公告)号:CN118245117A
公开(公告)日:2024-06-25
申请号:CN202410676339.7
申请日:2024-05-29
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F9/38
Abstract: 本发明涉及基于新一代申威众核处理器多分支自动分析并行优化方法,属于电子信息的技术领域;包括:对源码进行预处理,仅保留源码中的主要特征信息;对保留的源码中的主要特征信息进行分析,识别并标记应用程序中的热点;通过标签法对热点进行分类,并将热点以任务的形式散播到各从核块中;根据计算量的大小,选择不同的从核块,并自动通过不同方法处理具有不同特征的热点程序段。本发明考虑面向应用程序进行并行优化时,需要进行大量工作对程序进行标记分析,耗费很多资源,所以需要一种自动化并行工具,对程序进行分析和并行优化。因此本发明减少了并行编程的难度,提高了并行编程的效率。本发明具有明显的加速效果,且能很好的满足用户的需求。
-
公开(公告)号:CN117472448B
公开(公告)日:2024-03-26
申请号:CN202311829650.2
申请日:2023-12-28
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F9/38 , G06F15/163
Abstract: 本发明涉及一种申威众核处理器从核簇加速并行方法、设备及介质,属于电子信息技术领域;包括:应用程序优化阶段:对应用程序进行优化;输入导入阶段:将各从核所需的输入条件从主存储器传入LDM连续共享空间;计算与RMA传输阶段:计算从核即刻开始执行计算任务;从核将计算结果传输到主存储器时,由汇总从核将计算结果读取到本地LDM;汇总与整理阶段:汇总从核读取完计算从核此时的计算结果后进行整理;DMA传输阶段:将计算结果传输至主存储器中;重复执行上述阶段直到当前迭代次数达到预先设定的迭代总次数。本发明提供了适合处理以上情况的多种优化方法,拥有明显的加速效果,减少了使用难度,提高了用户体验。
-
-
-
-
-
-
-
-
-