-
公开(公告)号:CN118446267A
公开(公告)日:2024-08-06
申请号:CN202410618369.2
申请日:2024-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种扩散模型加速器,包含:片外内存,存储有上一时间步的原值;片上缓存,包含:权重缓存模块,与外片内存耦接,用于提取权重值进行缓存;输入特征缓存模块,用于读取输入差分激活值进行缓存;输出特征缓存模块,用于读取输出差分激活值进行缓存;处理引擎,包含:运算器阵列,用于读取缓存的该权重值与该输入差分激活值进行卷积乘法运算,生成该输出差分激活值;特殊处理模块,与该片外内存及该输出特征缓存模块耦接,用于从该片外内存获取该原值的符号位值;且利用该符号位值在该输出差分激活值上进行函数激活运算,生成增量输出值。其具有良好的加速效果,同时具有较高的能量效率和面积效率。
-
公开(公告)号:CN114911621A
公开(公告)日:2022-08-16
申请号:CN202210553734.7
申请日:2022-05-20
Applicant: 中国科学院计算技术研究所
IPC: G06F9/50 , G06N3/08 , H04L67/1001
Abstract: 本发明提供一种用于分布式训练计算阶段的自动优化方法,所述方法包括在分布式训练的每个回合执行如下步骤:S1、以预设的最小单位负载为粒度,计算当前回合中参与分布式训练的所有节点的计算性能;S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间,分别计算每个节点在限制时间内能够完成计算的最大负载数,以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略;S3、以步骤S2中负载分配策略,分配下一回合每个计算节点的负载。其中,节点的计算性能是该节点完成预设最小单位负载计算的时间。
-
公开(公告)号:CN110008436B
公开(公告)日:2021-03-26
申请号:CN201910171401.6
申请日:2019-03-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/14
Abstract: 本发明涉及一种基于数据流架构的快速傅里叶变换方法、系统和存储介质,包括:从X个源操作数中按照码位倒置顺序载入2(log2X‑log2Y)个源操作数和旋转因子,Y为处理单元数,以在处理单元本地完成log2X‑log2Y层蝶形运算,得到运算结果;设运算层数Q=1;将Y个处理单元标号分别对应1至Y,保存各处理单元与标号的对应关系构成序列表,序列表中有标识位,初始化所有处理单元标识位都为true;在序列表中选择标号最小且标识位为true的处理单元PEi,将其与编号为i+2Q‑1的处理单元构成交换对,并将交换对中两个PE的标志位更改为false;直到所有处理单元标识位均为false,各交换对包括的处理单元间交换运算结果以完成一层蝶形运算,Q自加1;直到Q为log2X时输出运算结果。
-
公开(公告)号:CN114968861A
公开(公告)日:2022-08-30
申请号:CN202210579507.1
申请日:2022-05-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种两写两读的数据传输结构以及片上多通道交互网络,所述数据传输结构包括:两条传输通道,其中,每条传输通道包括依次连接的具有两个输入接口的仲裁器、先进先出队列和读接口,以及连接仲裁器和读接口的直通线路;两个写接口,所述写接口用于与数据输入通道连接接收输入数据,每个写接口连接到两条传输通道中的每个仲裁器的一个输入接口;其中,所述传输通道被配置为:在一个时钟周期,能同时允许两个写接口各自输入一个数据,并通过传输通道对数据进行缓存或者传输。
-
公开(公告)号:CN110008436A
公开(公告)日:2019-07-12
申请号:CN201910171401.6
申请日:2019-03-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/14
Abstract: 本发明涉及一种基于数据流架构的快速傅里叶变换方法、系统和存储介质,包括:从X个源操作数中按照码位倒置顺序载入2(log2X-log2Y)个源操作数和旋转因子,Y为处理单元数,以在处理单元本地完成log2X-log2Y层蝶形运算,得到运算结果;设运算层数Q=1;将Y个处理单元标号分别对应1至Y,保存各处理单元与标号的对应关系构成序列表,序列表中有标识位,初始化所有处理单元标识位都为true;在序列表中选择标号最小且标识位为true的处理单元PEi,将其与编号为i+2Q-1的处理单元构成交换对,并将交换对中两个PE的标志位更改为false;直到所有处理单元标识位均为false,各交换对包括的处理单元间交换运算结果以完成一层蝶形运算,Q自加1;直到Q为log2X时输出运算结果。
-
公开(公告)号:CN119416845A
公开(公告)日:2025-02-11
申请号:CN202411551391.6
申请日:2024-11-01
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于斐波那契编码的存算一体神经网络加速方法和加速器,包括:存算一体神经网络加速器的斐波那契编码器将参与神经网络运算任务的激活值和权重值从二进制编码为斐波那契编码,得到斐波那契激活和斐波那契权重,存算一体神经网络加速器中存算一体单元的DAC将斐波那契激活转化为多个模拟电压,并分别施加到存算一体单元中SRAM阵列每一行的字线上;SRAM阵列的每个单元将输入的模拟电压乘以相应的斐波那契权重,得到中间运算结果,SRAM阵列每一列的加法器对中间运算结果进行重新分配电荷以完成内积的累加操作,并将累加操作结果通过存算一体单元的ADC转换为斐波那契编码的数字格式,作为神经网络运算任务的运算结果。
-
-
公开(公告)号:CN114925826A
公开(公告)日:2022-08-19
申请号:CN202210553741.7
申请日:2022-05-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种用于分布式训练同步阶段的自动优化方法,所述方法包括在每个回合执行如下步骤:S1、获取在当前回合网络状态满足预设的系统要求的节点组成激活节点列表;S2、基于激活节点列表中的所有节点构建自动优化策略以从激活节点列表中选出使分布式系统效率最大的激活节点组合作为自动优化策略,并将自动优化策略对应的节点加入分布式训练。其中,所述激活节点列表包括当前回合已存在的激活节点列表以及当前回合新加入的新增激活节点列表,其中,所述当前回合新加入的新增激活节点列表是在当前回合网络状态满足系统要求的非激活节点组成的列表,所述非激活节点是指当前回合之前未加入分布式训练的节点。
-
-
-
-
-
-
-