基于指令序列与消息序列指引的深度依赖问题并行方法

    公开(公告)号:CN112527394A

    公开(公告)日:2021-03-19

    申请号:CN201910879931.6

    申请日:2019-09-18

    Abstract: 本发明公开一种基于指令序列与消息序列指引的深度依赖问题并行方法,包括以下步骤:S1、将解向量按块进行平均划分,通过这种划分将解向量中各元素之间的依赖性转换成向量块之间的依赖性;S2、将一个向量块完成计算称为一次更新操作,此一次更新操作需要以下三个步骤:S21、部分更新:接收前继块发送的数据;S22、自我更新:对块内元素进行计算更新;S23、完成更新:将本向量块求解完毕的元素发送给所依赖的后继块;S3、众核内每个计算核心按顺序计算相应的向量块,重复S2的更新操作步骤,实现了整个流水线作业计算;S4、为每个计算核心设计一串指令流,即指令序列。本发明提高众核内部通信的相互协作性,减少访存时间开销,实现有效加速。

    解决非结构网格离散访存问题众核并行优化算法

    公开(公告)号:CN112445604A

    公开(公告)日:2021-03-05

    申请号:CN201910799249.6

    申请日:2019-08-28

    Abstract: 本发明公开一种解决非结构网格离散访存问题众核并行优化算法,包括以下步骤:S1、将网格单元周围的网格面通量数据分为若干数据块,并将不同数据块定义为不同属性;S2、将分块后的数据块并行拷入各个从核中;S3、各从核并行遍历拷入的数据块中的数据,按照该数据所对应的l(u)所在的位置,对一个数据块中的若干数据进行局部重排,并记录重排后各个数据位置索引;S4、各从核分别从主存中拷入一个通量数据块,并根据S3记录的位置索引,从重排序后的暂存空间中,拷入通量数据块所需要的Lower数据、Upper数据进行计算。本发明对非结构网格离散访存问题进行基于众核的重排序优化,极大减少了离散访存时间,提高该类问题的求解效率,从而提高整个应用系统的运行效率。

    一种数值预报产品实时处理方法

    公开(公告)号:CN105678060B

    公开(公告)日:2018-04-10

    申请号:CN201511027453.4

    申请日:2015-12-31

    Abstract: 一种数值预报产品实时处理方法,包括:使用数值预报系统计算预报数据,数值预报系统将每次计算的预报数据保存在文件系统中;采用预报产品生产服务进程,以服务运行方式,读取数值预报系统计算的预报数据,实时判断数值预报系统计算的预报数据是否加入了新数据,在加入了新数据的情况下,从文件系统中读入新数据进行更新;实时接收预报产品发布服务进程发送的针对预报区域内使用经纬度坐标确定的任意点的预报数据请求;响应于接收的针对该任意点的预报数据请求,对数值预报系统计算的预报数据进行实时处理,通过预定算法生成发布服务进程请求的预报区域内使用经纬度坐标确定的任意点的预报产品,将该任意点的预报产品返回给预报产品发布服务进程。

    基于异构众核处理器的多级访存方法、离散访存方法

    公开(公告)号:CN102929724B

    公开(公告)日:2016-04-13

    申请号:CN201210441328.8

    申请日:2012-11-06

    Abstract: 本发明公开了一种基于异构众核处理器的多级访存方法及离散访存方法。所述多级访存方法包括:从核读入第一次计算所需的数据;除第一次之外,从核在进行本次数据计算的同时,读入下一次计算所需的数据;除最后一次之外,从核在进行本次数据计算的同时,写回上一次计算结果数据;从核写回最后一次计算结果数据。所述离散访存方法包括:在从核上调整数组的存储顺序,将离散存储的数组调整为连续存储的数组;从核以多级访存方法,对所述数组进行通信读入数据、计算和通信写回数据。本发明实现了有效计算开销和多级存储资源访问开销之间最大限度的隐藏,提高了多级访存效率,充分发挥了从核的性能效率,从而提高科学计算课题的计算效率。

    一种基于众核处理器的系统功耗动态控制方法

    公开(公告)号:CN114217687B

    公开(公告)日:2023-07-07

    申请号:CN202110325143.X

    申请日:2021-03-26

    Abstract: 本发明公开一种基于众核处理器的系统功耗动态控制方法,包括以下步骤:S1、提交课题前,设置Pu,并设置Su为0;S2、运行提交的课题,自动记录该课题使用的众核处理器的F0;S3、判断课题是否结束,如课题已结束,跳转至S11;S4、通过资源管理系统获取Pr;S5、比较S4中获取的Pr与Pu;S6、将Fr提升一档,跳转至S9;S7、如果Su为1,则直接挂起该课题运行,跳至S10,否则,设置Su为1,跳至S9;S8、将Fr降低一档,跳至S9;S9、等待T后,跳至S3;S10、将Fr降低两档,恢复课题运行,跳至S3;S11、恢复Fr为F0。本发明解决了超大规模并行机用户课题运行中的系统功耗不受控问题。

    一种基于ONNX面向Caffe2训练的深度学习模型自动转换方法

    公开(公告)号:CN114219083A

    公开(公告)日:2022-03-22

    申请号:CN202110452694.2

    申请日:2021-04-26

    Abstract: 本发明公开一种基于ONNX面向Caffe2训练的深度学习模型自动转换方法,包括以下步骤:S1、ONNX文件向Caffe2文件的映射,得到Caffe2格式的前向传播网络,S2、根据S1中获得的前向传播网络的信息,自动生成求梯度算子,得到反向传播网络,S3、根据满足生成完整反向传播网络的需要,设计用户配置信息格式,将配置信息融入上步骤的模型定义文件中。本发明可以自动产生包括正向传播神经网络、反向传播神经网络、运行控制块和辅助算子的模型文件,从而进行训练任务。

    一种针对百量子级方形量子网格随机电路模拟方法

    公开(公告)号:CN114218881A

    公开(公告)日:2022-03-22

    申请号:CN202110481466.8

    申请日:2021-04-30

    Abstract: 本发明公开一种针对百量子级方形量子网格随机电路模拟方法,在利用张量网络方法对量子随机电路进行模拟的过程中,于是将张量网络切割成较小的张量片,存在不同的节点上;包括以下步骤:S1、将张量网络沿中线切割m次,以降低张量收缩路径中产生的最大张量片的阶数;S2、沿张量网络中线每切割1次,生成2^(L/8)个,独立的并行任务,将这些独立的任务分在不同的进程上并行计算,每个任务通过计算,得到一个标量结果,其中,L表示电路的层数;S3、将S2中获得的每个任务得到的标量结果相加,得到了张量的单振幅模拟结果。本发明可以降低模拟过程的内存需要,从而满足百量子比特以上量级量子随机电路的模拟需求。

    一种针对海洋模式ROMS众核优化的方法

    公开(公告)号:CN114218736A

    公开(公告)日:2022-03-22

    申请号:CN202110453194.0

    申请日:2021-04-26

    Abstract: 本发明公开一种针对海洋模式ROMS众核优化的方法,包括以下步骤:S1、查找、确认并分析海洋模式中的热点函数,找出热点函数的特点;S2、根据S1中的分析结果,找出排名前三的热点函数都是属于计算密集型、不涉及数据相关性、但存在跨步访存问题的函数;S3、对S2中获得的热点函数的计算部分,利用循环段程序重构,将跨步访存变为连续访存;S4、利用编译指示语句对循环段进行众核优化,将循环段计算任务分发到不用的众核上;S5、对编译指示语句进行调优,通过多轮对比测试,作为最终的优化版本,可供模式其他算例使用。本发明在提升主核访存性能的同时,也有利于从核进行灵活的分块和合并等操作,还可以达到众核加速的效果。

    指令流一致性测试方法
    39.
    发明公开

    公开(公告)号:CN114218065A

    公开(公告)日:2022-03-22

    申请号:CN202110453215.9

    申请日:2021-04-26

    Abstract: 本发明公开一种指令流一致性测试方法,S1、初始化各项参数;S2、读入命令行参数;S3、设置共享空间的大小,申请共享的可执行空间;S4、Fork进程,并将进程绑定在不同核心上;S5、进入指令Cache测试入口模块,初始化由随机数组成的数组,并添加前缀指令;S6、进入自动测试模块;S7、进入执行指令模块;S8、执行指令模块运行结束,并进入结束测试模块;S9、在结束测试模块中,判断是否超过设定的执行遍数,如果超过,则进行结果校验,如果没超过,则再次进入自动测试模块;S10、结束测试后,汇报测试结果并回收进程,然后退出并结束。本发明解决了指令Cache一致性验证困难的问题。

    一种基于遗传算法的极端测试用例生成方法

    公开(公告)号:CN114218064A

    公开(公告)日:2022-03-22

    申请号:CN202110426746.9

    申请日:2021-04-20

    Abstract: 本发明公开一种基于遗传算法的极端测试用例生成方法,包括以下步骤:S1、种群生成器生成初始种群;S2、适应值计算器对S1中获得的初始种群中每个个体进行适应值计算;S3、适应值收集模块收集所有个体的适应值,并反馈给遗传算法核心;S4、遗传算法核心判断是否获得近优解,得到近优解并跳转到S5,若还未获得近优解,遗传算法核心根据上一代的适应值结果,交叉和变异产生多组指令序列,并由种群生成器嵌入汇编代码,生成下一代种群,跳转到S2;S5、得到近优解汇编代码。本发明不需要人工排指令来编写极端测试用例,可以自动生成特定的极端测试用例。

Patent Agency Ranking