-
公开(公告)号:CN112861154A
公开(公告)日:2021-05-28
申请号:CN202110209198.4
申请日:2021-02-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种面向数据流架构的SHA算法执行方法,对于逻辑左移操作,依次处理数据分量n1到数据分量nI。该方法包括:对于寄存器i的数据分量ni,将其与高位为j个1的K位二进制数1...1000...00进行按位与操作;将按位与操作的结果逻辑右移K-j位,得到寄存器i+1的进位值,并存入寄存器i的输出值REG_OUT中;将寄存器i的数据分量ni左移j位后加上寄存器i-1向寄存器i的进位值REG_IN,得到寄存器i的结果值;依次在寄存器1到寄存器I中分别重复执行上述步骤。
-
公开(公告)号:CN112215349A
公开(公告)日:2021-01-12
申请号:CN202010972552.4
申请日:2020-09-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于数据流架构的稀疏卷积神经网络加速方法,其包括:通过计算输入激活和权值矩阵的运算,得到输出激活的正负值标记信息;根据所述输出激活的正负值标记信息,对与所述输出激活相关的指令的有效与无效进行标记,得到指令标记信息;根据所述指令标记信息,筛选出所述指令中被标记为有效的指令;跳过所述被标记为无效的指令,仅执行所述被标记为有效的指令。
-
公开(公告)号:CN111738703A
公开(公告)日:2020-10-02
申请号:CN202010474004.9
申请日:2020-05-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种加速安全散列算法的加速器,包括:存储模块、PE运算模块、任务划分模块、算法映射模块。本发明相比于现有技术,首先可以降低计算的时间开销,提高计算性能;其次,可以降低计算带来的功耗开销;此外,本发明可以实现安全散列函数的高通量计算,显著提高哈希率,使用本发明设计的计算机系统具有良好的可扩展性和兼容性。
-
公开(公告)号:CN110890120A
公开(公告)日:2020-03-17
申请号:CN201911001197.X
申请日:2019-10-21
Applicant: 中国科学院计算技术研究所
IPC: G11C13/00
Abstract: 本发明提出一种基于阻变存储器的通用区块链应用处理加速方法及系统,包括:判断当前程序是否为区块链加速处理程序,若是,则将当前程序发送至包括存储处理器和阻变存储器的HMC存储器端,其中存储处理器集成在HMC存储器端的逻辑控制层,阻变存储器集成在HMC存储器端的立体存储层,存储处理器通过控制立体存储层,以数据流运行的方式完成对当前程序的近存储计算,得到当前程序的执行结果,并将其回传至主处理器端,否则主处理端中的乱序核根据当前程序,以控制流运行的方式执行当前程序,得到执行结果。本发明具有较高的执行速度和显著的能效比提升,并结合数据流任务分配和执行模式,能够获得更高的执行效率和能效。
-
公开(公告)号:CN119988246A
公开(公告)日:2025-05-13
申请号:CN202510069404.4
申请日:2025-01-16
Applicant: 中国科学院计算技术研究所
IPC: G06F12/02 , G06F12/0879 , G06F12/0888 , G06F16/901 , G06F16/903 , G06N3/063 , G06N3/042
Abstract: 本发明提出一种硬件筛选器、图神经网络加速器及其片外访存筛选方法,该方法包含:接收来自图神经网络加速器内部的稀疏访存请求,并按照DRAM访问的最小单位burst对该稀疏访存请求分组为若干burst请求;对输入的所述若干burst请求执行至少一轮筛选,识别每一轮中待保留的所述burst请求与待筛除的所述burst请求;由内存控制器接收所述最终一轮的待保留的所述burst请求返回正确访存结果;接收所有轮的待筛除的所述burst请求生成虚假零值结果;获取该正确访存结果以及该虚假零值结果生成稀疏访存结果反馈至图神经网络加速器。该方法在不影响模型精度的前提下,降低了访存量,实现访存的局部性改善和系统的性能提升。
-
公开(公告)号:CN119356738A
公开(公告)日:2025-01-24
申请号:CN202411452516.X
申请日:2024-10-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种基于混合积的任务处理方法及计算装置,该方法包括:获取计算任务所需的第一矩阵A、第二矩阵B和第三矩阵C,计算任务是求AB+C的结果矩阵D的矩阵乘加运算;获取硬件规模t;根据硬件规模和预设的划分规则,将A、B和C分别划分为适于处理阵列处理的四级子矩阵,包括第一、第二、第三和第四级子矩阵;利用处理阵列根据划分出的子矩阵进行混合积运算以完成任务,其中,混合积运算过程中,在第四级子矩阵的维度上采用哈达玛积的形式进行计算,在第三级子矩阵的维度上采用矩阵的外积的形式进行计算,在第二级子矩阵的维度上采用矩阵的外积的形式进行计算,在第一级子矩阵的维度上采用内积的形式进行计算。
-
公开(公告)号:CN119226225A
公开(公告)日:2024-12-31
申请号:CN202411288815.4
申请日:2024-09-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种数据流可重构架构中单元失效的自感知方法,所述数据流可重构架构是指能按照任务的数据流对处理单元进行组织和管理的CGRA架构,所述数据流可重构架构包括自感知控制器和多个处理单元,每个处理单元包括计算部件、路由部件和存储部件,路由部件包括控制路由和数据路由,每个部件均设有感知模块,所述方法包括:由所述自感知控制器向处理单元发出检测请求;由处理单元中的各个感知模块根据检测请求分别检测计算部件、存储部件、控制路由和数据路由是否正常,得到检测结果;由自感知控制模块收集各个处理单元反馈的检测结果。
-
公开(公告)号:CN119166218A
公开(公告)日:2024-12-20
申请号:CN202411190236.6
申请日:2024-08-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明实施例提供一种基于RISC‑V扩展指令的矩阵及向量运算装置,所述装置包括相互连接的协处理器与主处理器,主处理器中配置有RISC‑V指令集和协处理器扩展指令集,RISC‑V指令集包括与向量运算任务相关的向量扩展指令集,协处理器扩展指令集包括与矩阵运算任务相关的矩阵处理指令集,主处理器被配置为:在执行计算任务时,将与矩阵运算任务相关的矩阵处理指令集或将与向量运算任务相关的向量扩展指令集发送给协处理器,以与协处理器并行执行计算任务;协处理器被配置为:根据所述矩阵扩展指令集执行主处理器卸载下的矩阵运算任务,得到矩阵运算任务的执行结果;或者根据所述向量扩展指令集执行主处理器卸载下的向量运算任务,得到向量运算任务的执行结果。
-
公开(公告)号:CN119065832A
公开(公告)日:2024-12-03
申请号:CN202411019358.9
申请日:2024-07-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种面向数据流众核处理器的任务运行时调度方法及装置,该方法包括在运行时环境中执行以下操作:根据PE阵列的剩余资源、片上存储空间剩余资源和各任务的属性信息,从任务发射队列中标记资源适配的任务以构建任务组;对任务组中的任务进行预处理,得到经预处理的任务组,将经预处理的任务组映射到PE阵列上执行,其中,所述预处理包括:识别任务组中具有数据依赖的两个任务构成的关联对,修改关联对中前驱任务和后继任务所对应的微指令代码,以使处理该前驱任务的PE核将结果数据直接传输至处理该后继任务的PE核。
-
公开(公告)号:CN112215349B
公开(公告)日:2024-01-12
申请号:CN202010972552.4
申请日:2020-09-16
Applicant: 中国科学院计算技术研究所
IPC: G06N3/082 , G06N3/0464
Abstract: 本发明提供一种基于数据流架构的稀疏卷积神经网络加速方法,其包括:通过计算输入激活和权值矩阵的运算,得到输出激活的正负值标记信息;根据所述输出激活的正负值标记信息,对与所述输出激活相关的指令的有效与无效进行标记,得到指令标记信息;根据所述指令标记信息,筛选出所述指令中被标记为有效的指令;跳过所述被标记为无效的指令,仅执行所述被标记为有效的指令。
-
-
-
-
-
-
-
-
-