-
公开(公告)号:CN115686639A
公开(公告)日:2023-02-03
申请号:CN202211290962.6
申请日:2022-10-21
Applicant: 中国科学院计算技术研究所
IPC: G06F9/38
Abstract: 本发明提供了一种应用于处理器的分支预测方法以及分支预测器,该分支预测方法包括:获取TAGE预测器对分支指令进行分支预测的第一中间参数以及第一预测值;获取GEHL预测器对所述分支指令进行分支预测的第二中间参数以及第二预测值;利用预设的组合预测器根据所述分支指令对应的PC值、第一中间参数、第一预测值、第二中间参数以及第二预测值中的指定比特位按照预定的规则重组确定多个子索引,并基于重组的多个子索引确定对应的第三预测值以及第三预测值的置信度;根据所述分支指令对应的PC值、第三预测值以及第三预测值的置信度生成查询索引,利用所述查询索引从预定的模式历史表中确定分支指令对应的最终预测值,从而提升分支预测的精度和处理器效率。
-
公开(公告)号:CN114911621A
公开(公告)日:2022-08-16
申请号:CN202210553734.7
申请日:2022-05-20
Applicant: 中国科学院计算技术研究所
IPC: G06F9/50 , G06N3/08 , H04L67/1001
Abstract: 本发明提供一种用于分布式训练计算阶段的自动优化方法,所述方法包括在分布式训练的每个回合执行如下步骤:S1、以预设的最小单位负载为粒度,计算当前回合中参与分布式训练的所有节点的计算性能;S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间,分别计算每个节点在限制时间内能够完成计算的最大负载数,以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略;S3、以步骤S2中负载分配策略,分配下一回合每个计算节点的负载。其中,节点的计算性能是该节点完成预设最小单位负载计算的时间。
-
公开(公告)号:CN117933073A
公开(公告)日:2024-04-26
申请号:CN202410057102.0
申请日:2024-01-15
Applicant: 中国科学院计算技术研究所
IPC: G06F30/27 , G06F9/50 , G06F18/214 , G06F18/243 , G06N5/01 , G06F111/06
Abstract: 本发明提供了一种用于探索CPU微架构的设计空间的方法和装置,该方法包括:获取所有设计点和负载;利用运行负载的模拟器对部分设计点进行模拟输出对应的性能指标,并构建训练集训练性能预测模型;利用经训练的性能预测模型预测剩余设计点的性能指标,并执行以下操作:计算设计点的超体积值并确定候选设计点,若有候选设计点,将该候选设计点输入模拟器;若没有候选设计点,利用预设选择算法选择一个设计点输入模拟器;判断训练集中设计点的数量与所有设计点的数量的比值是否超过预设阈值,若否,对输入的设计点进行模拟并输出性能指标,将其加入训练集对性能预测模型进行迭代训练;若是,根据帕累托等级算法计算并输出CPU微架构的帕累托最优解集。
-
公开(公告)号:CN114968861A
公开(公告)日:2022-08-30
申请号:CN202210579507.1
申请日:2022-05-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种两写两读的数据传输结构以及片上多通道交互网络,所述数据传输结构包括:两条传输通道,其中,每条传输通道包括依次连接的具有两个输入接口的仲裁器、先进先出队列和读接口,以及连接仲裁器和读接口的直通线路;两个写接口,所述写接口用于与数据输入通道连接接收输入数据,每个写接口连接到两条传输通道中的每个仲裁器的一个输入接口;其中,所述传输通道被配置为:在一个时钟周期,能同时允许两个写接口各自输入一个数据,并通过传输通道对数据进行缓存或者传输。
-
-
公开(公告)号:CN114925826A
公开(公告)日:2022-08-19
申请号:CN202210553741.7
申请日:2022-05-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种用于分布式训练同步阶段的自动优化方法,所述方法包括在每个回合执行如下步骤:S1、获取在当前回合网络状态满足预设的系统要求的节点组成激活节点列表;S2、基于激活节点列表中的所有节点构建自动优化策略以从激活节点列表中选出使分布式系统效率最大的激活节点组合作为自动优化策略,并将自动优化策略对应的节点加入分布式训练。其中,所述激活节点列表包括当前回合已存在的激活节点列表以及当前回合新加入的新增激活节点列表,其中,所述当前回合新加入的新增激活节点列表是在当前回合网络状态满足系统要求的非激活节点组成的列表,所述非激活节点是指当前回合之前未加入分布式训练的节点。
-
-
-
-
-