-
公开(公告)号:CN114925826A
公开(公告)日:2022-08-19
申请号:CN202210553741.7
申请日:2022-05-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种用于分布式训练同步阶段的自动优化方法,所述方法包括在每个回合执行如下步骤:S1、获取在当前回合网络状态满足预设的系统要求的节点组成激活节点列表;S2、基于激活节点列表中的所有节点构建自动优化策略以从激活节点列表中选出使分布式系统效率最大的激活节点组合作为自动优化策略,并将自动优化策略对应的节点加入分布式训练。其中,所述激活节点列表包括当前回合已存在的激活节点列表以及当前回合新加入的新增激活节点列表,其中,所述当前回合新加入的新增激活节点列表是在当前回合网络状态满足系统要求的非激活节点组成的列表,所述非激活节点是指当前回合之前未加入分布式训练的节点。
-
公开(公告)号:CN110941451A
公开(公告)日:2020-03-31
申请号:CN201911011823.3
申请日:2019-10-23
Applicant: 中国科学院计算技术研究所
IPC: G06F9/38
Abstract: 本发明涉及一种数据流处理器指令映射方法,包括:根据数据流图,对初始指令序列进行广度优先遍历的排序,得到按照深度优先排序的最终指令序列;将该最终指令序列划分为多个指令子序列,对所有该指令子序列依次进行指令映射,生成多个子映射布局;合并所有该子映射布局为用于数据流处理器执行该初始指令序列的最终映射布局。本发明的指令映射方法处理平衡网络拥塞度、网络负载、PE间流水、负载均衡等各种因素之外,还通过划分指令子空间的方式,分组并行进行映射布局的探索,从中选择最优的结果作为最终的映射布局,这种方式保证了映射质量的同时增加了算法的并行性,提高同等映射质量下的算法运行速度。
-
公开(公告)号:CN106227508A
公开(公告)日:2016-12-14
申请号:CN201610592479.1
申请日:2016-07-25
Applicant: 中国科学院计算技术研究所 , 北京中科睿芯科技有限公司
IPC: G06F9/38
CPC classification number: G06F9/3893
Abstract: 本发明提出一种无回边数据流循环方法、系统、装置、芯片,涉及数据流体系结构技术领域,该方法设置数据流的循环指令的指令格式,所述指令格式包括操作码、源操作数个数、多个目的指令的编号、总循环次数段,每个循环指令维护一个迭代计数器,初始阶段迭代计数器的值等于总循环次数段的值,循环指令每执行一次,所述迭代计数器的值减1,当所述迭代计数器的值减为0时,将所述迭代计数器的值重新置为总循环次数段的值,循环指令根据所述迭代计数器的值执行相应的逻辑。
-
公开(公告)号:CN1936873A
公开(公告)日:2007-03-28
申请号:CN200510086446.1
申请日:2005-09-20
Applicant: 中国科学院计算技术研究所
IPC: G06F13/38
Abstract: 本发明公开了一种控制两种不同速度总线间数据传送的方法。该方法包含:传送不同方向数据用的读FIFO和写FIFO、用于从写FIFO中收集写数据的写缓冲区0和写缓冲区1、用于在另外一条总线的数据进入读FIFO前缓冲数据的读缓冲区。本发明的优点有:1)读、写FIFO的控制逻辑相对简单;2)以较小的写FIFO深度就可以在发起方总线上获得理想的效率;3)写数据在写FIFO中停留的时间短,可以尽早地在目标方总线上发起写操作;4)以流水的方式处理读数据地传送;5)通过目标方总线接口地读写缓冲区处理发起方总线和目标方总线宽度不一致地情况。本发明可应用于控制两种不同速度总线间数据传送的桥接芯片的设计中。
-
公开(公告)号:CN1904851A
公开(公告)日:2007-01-31
申请号:CN200510088740.6
申请日:2005-07-29
Applicant: 中国科学院计算技术研究所
IPC: G06F11/36
Abstract: 本发明公开了一种单步执行在片调试功能的装置,包括:指令队列电路1、指令译码电路2、指令寄存器电路3;其特征在于,还包括判断电路4、单步执行标志寄存器电路5和调试模式标志寄存器电路6;所述的单步执行标志寄存器电路5用于指示下一条译码进入指令队列的指令是否发生单步调试例外,所述的调试模式标志寄存器电路6用于表示处理器的工作模式,所述的判断电路4用于判断指令队列电路1和指令寄存器电路3中是否存在指令执行步;指令译码电路2还结合单步执行标志、单步使能信号、调试模式标志,决定下一条译码进入指令队列的指令是否发生单步执行调试例外。
-
公开(公告)号:CN1705269A
公开(公告)日:2005-12-07
申请号:CN200410042742.7
申请日:2004-05-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种用于虚拟共享存储系统的远程取页方法及网络接口卡。该方法将网络接口卡上的存储器区域映射到用户进程的虚地址空间;源节点的用户进程直接访问其网络接口卡,产生并向目的节点的网络接口卡发送远程取页请求消息;目的节点的网络接口卡直接读取目的节点中的所需页;目的节点的网络接口卡向源节点的网络接口卡返回远程取页应答消息;源节点的网络接口卡直接将所述页写到源节点的内存区域。该网络接口卡增加了帧头分析逻辑、RDMA操作逻辑和虚实地址转换逻辑。在本发明中,用网络接口卡上的硬件处理大部分的协议开销,用户进程和网络接口卡可以双向直接访问,可以在不打断远程节点CPU的当前工作的情况下实现远程取页操作。
-
公开(公告)号:CN1420631A
公开(公告)日:2003-05-28
申请号:CN01135045.8
申请日:2001-11-16
Applicant: 中国科学院计算技术研究所
IPC: H03K19/0948 , H01L27/092
Abstract: 一种非互补型的CMOS电路结构,并联结构的晶体管(1)与至少相互并联的晶体管(2)和(3)串联,至少晶体管(4)、(5)和至少晶体管(6)、(7)分别串联后并联,并与并联的晶体管(2)和(3)串联。本发明减小最大时间差流水线系统数据路径延迟差,大大提高了系统的工作速度和可靠性。
-
公开(公告)号:CN1410877A
公开(公告)日:2003-04-16
申请号:CN01141499.5
申请日:2001-09-27
Applicant: 中国科学院计算技术研究所
IPC: G06F5/01
Abstract: 一种不必计算指数差而直接对阶的高速浮点加减部件,包括:两个移位器,用于移位尾数;指数大小比较逻辑,用于生成移位结果选择信号;两个选通器,用于输出移位后的结果。本发明不仅适用于单通路的体系结构,也适用于双通路体系结构,在双通路体系结构中可以实现只有两个基本加法步长的浮点加减,在单通路的体系结构中可以实现有三个基本加法步长的浮点加减,进一步提高了浮点加减运算速度。
-
公开(公告)号:CN100414519C
公开(公告)日:2008-08-27
申请号:CN200410091378.3
申请日:2004-11-24
Applicant: 中国科学院计算技术研究所
IPC: G06F12/10
Abstract: 本发明公开了一种从虚拟地址向物理地址变换的方法及其装置,利用数据局部性,将需要变换成物理地址的虚拟地址同上次变换的虚拟地址相比较,如果同属一个虚拟页表,则不访问翻译后援缓冲器(TLB)的随机存储器(RAM)部分,而直接利用上次变换得到的物理页表地址,以减少对翻译后援缓冲器中随机存储器的访问次数;而且指令翻译后援缓冲器(ITLB)和数据翻译后援缓冲器(DTLB)共用一个单读端口随机存储器,这样可以达到降低翻译后援缓冲器部分的功耗和面积的效果,同时又不会降低处理器的性能。
-
公开(公告)号:CN100414518C
公开(公告)日:2008-08-27
申请号:CN200410091377.9
申请日:2004-11-24
Applicant: 中国科学院计算技术研究所
IPC: G06F12/10
Abstract: 本发明公开了一种改进的虚拟地址变换方法及其装置,该方法包括利用数据局部性,将需要变换成物理地址的虚拟地址同上次变换的虚拟地址相比较,如果同属一个虚拟页表,则不访问翻译后援缓冲器(TLB)的随机存储器(RAM)部分,而直接利用上次变换得到的物理页表地址,以减少对翻译后援缓冲器中随机存储器的访问次数;而且指令翻译后援缓冲器(ITLB)和数据翻译后援缓冲器(DTLB)共用一个单读端口随机存储器;并且推迟随机存储器输出的物理页表地址和保存的上次使用的物理页表地址的选择操作,这样可以达到降低翻译后援缓冲器部分的功耗和面积的效果,同时又不会降低处理器的性能和增加电路的延迟。
-
-
-
-
-
-
-
-
-