-
公开(公告)号:CN112288085A
公开(公告)日:2021-01-29
申请号:CN202011147836.6
申请日:2020-10-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种卷积神经网络加速方法及系统,包括将待特征分析的图像作为输入激活输入卷积神经网络,分解该卷积神经网络中滤波器的权值向量,得到滤波器中权值对应的符号向量;通过符号向量与输入激活向量执行卷积运算,得到第一卷积结果,通过补偿因子与输入激活向量执行卷积运算,得到第二卷积结果,将该第一卷积结果和第二卷积结果相加,得到预测结果;该卷积神经网络执行卷积计算时根据该预测结果跳过0值相关的运算,得到卷积结果。本发明可预知输出激活的稀疏度,以指导原始的神经网络运算跳过0值相关的运算,从而减少原始网络的计算量,节省计算资源、降低功耗并提升性能。
-
公开(公告)号:CN112015473A
公开(公告)日:2020-12-01
申请号:CN202010719417.9
申请日:2020-07-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于数据流架构的稀疏卷积神经网络加速方法及系统。针对稀疏卷积应用,使用软件方式设计了一套指令共享检测装置和稀疏卷积加速方法。通过对编译器生成的指令进行检测和对比,标记所有指令中指令内容完全相同的指令,将这些指令的地址设置为相同的地址,实现稀疏卷积中指令共享,从而减少了指令加载对内存的访问,提升了稀疏卷积运行的时间。
-
公开(公告)号:CN110211617A
公开(公告)日:2019-09-06
申请号:CN201910413959.0
申请日:2019-05-17
Applicant: 中国科学院计算技术研究所
IPC: G11C13/00 , G06F16/901
Abstract: 本发明提供一种基于阻变存储器的哈希硬件处理装置及方法,所有的源数据无需送往CPU进行哈希函数的计算,在RRAM中根据电流叠加效应即可完成哈希函数输入数据的操作,并在存储器中实现哈希表的建立,无需将大量的源数据送往CPU后再送回存储器中。本发明基于阻变存储器的数据处理将减少数据从存储器端向处理器端的数据搬运,尤其于对数据量大的应用来说,具有显著的性能优势和功耗优势。通过在RRAM存储器中利用RRAM存储单元可实现基于电流叠加原理实现的存储数据的累加功能,进行哈希表的建立,避免数据读取到CPU端进行计算后再写入哈希表,一方面减少大量数据从存储端向CPU端的搬运,减少对访存带宽的需求;另一方面可以提高哈希表建立和查询的执行效率,并降低处理功耗。
-
公开(公告)号:CN109783054A
公开(公告)日:2019-05-21
申请号:CN201811560119.9
申请日:2018-12-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种RSFQ FFT处理器的蝶形运算处理系统,包括用于执行计算的第一计算模块和第二计算模块,用于执行常数乘法的旋转因子模块和用于改变序列顺序的重排模块;在执行运算时,输入数据经所述第一计算模块执行计算后将获得的第一数据串输入至所述旋转因子模块中执行常数乘法并获得中间结果,所述中间结果经所述重排模块改变序列顺序后,将获得的第二数据串输入至所述第二计算模块执行计算并获得输出数据。
-
公开(公告)号:CN108108151A
公开(公告)日:2018-06-01
申请号:CN201711330475.7
申请日:2017-12-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种超导单磁通量子处理器的算术逻辑单元运算方法和系统,包括采用超导RSFQ技术克服了传统技术低速度高功耗的问题,同时该高速单磁通量子处理器中的算术逻辑单元采用16位串‑并结构的加法器进行运算处理,而串‑并体系结构比串行结构运算速度更快,比并行结构需要的硬件资源更少;发明在实现超高速度的同时也保证了超低功耗。在基于国内外RSFQ大规模集成电路工艺满足64位RSFQ微处理器核心部件的条件下,对64位RSFQ ALU进行逻辑设计,为将来设计超高速64位RSFQ微处理器以及计算机系统奠定基础。
-
公开(公告)号:CN104346285A
公开(公告)日:2015-02-11
申请号:CN201310339295.0
申请日:2013-08-06
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
CPC classification number: G06F3/0611 , G06F3/0656 , G06F3/0683 , G06F9/3824
Abstract: 本发明提供内存访问处理方法、装置及系统,该方法包括:接收处理器发送的访存请求;将在一个预置时间段内接收的多个访存请求进行合并形成新访存请求,新访存请求包括由内存地址对应的编码位组成编码位向量以及被合并的访存请求所访存内存地址的基地址、访存粒度、访存请求类型及由内存地址对应的编码位组成编码位向量,在编码位向量中每个被合并的访存请求所访存的内存地址对应的编码位上配置表示有访存操作的第一编码位标识;将新访存请求发送给内存控制器,以使内存控制器对与第一编码位标识对应的内存地址执行访存操作。本发明可将处理器发送的多个访存请求合并成一个访存请求并统一发送给内存控制器以执行访存操作,有效提高内存带宽使用率。
-
公开(公告)号:CN103870327A
公开(公告)日:2014-06-18
申请号:CN201210551909.7
申请日:2012-12-18
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
IPC: G06F9/48
CPC classification number: G06F9/4887 , G06F3/126 , G06F9/4881 , G06F9/5038
Abstract: 本发明实施例提供了一种实时多任务调度方法和装置,能够动态校正线程的裕度值,获得更加准确的任务优先级,进而提高实时多任务调度的准确性。该方法包括:在确定对当前调度的线程进行裕度校正后,根据所述当前调度的线程的执行进度和所述当前调度的线程已经执行的时间,获取所述当前调度的线程的剩余执行时间;然后根据所述当前调度的线程的剩余执行时间以及所述当前调度的线程的截止时间,获取所述当前调度的线程的裕度;接着根据所述当前调度的线程的裕度,确定所述线程的优先级,并根据所述线程的优先级重新确定优先级队列;最后根据重新确定的优先级队列,依次调度所述队列中的线程。本发明适用于计算机领域。
-
公开(公告)号:CN114629555B
公开(公告)日:2025-03-14
申请号:CN202210310677.X
申请日:2022-03-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种数据转发装置,其输入端与输出端均与传输光纤相连,所述装置包括:光纤分路器,将输入的光信号复制为多份光信号;光直通转发模块,接收光纤分路器的一条分路输出的光信号并将需要转发的光信号直接以光信号形式经过光纤选路器传输到输出端的传输光纤;光电转换模块,接收光纤分路器的一条分路输出的光信号并转换为电信号且以数据包形式进行缓存;控制模块,接收光纤分路器的一条分路输出的光信号,以根据光信号的目的地址判断光信号是否需要转发,并结合输出端传输光纤的工作状态针对需要转发和不需要转发的光信号分别输出相应的控制命令;光纤选路器,在控制模块输出的控制下选择光直通转发模块或光电转换模块与输出端传输光纤连通。
-
公开(公告)号:CN118172230A
公开(公告)日:2024-06-11
申请号:CN202410341779.7
申请日:2024-03-25
Applicant: 中国科学院计算技术研究所
IPC: G06T1/20 , G06T1/60 , G06F16/11 , G06F16/16 , G06F16/176
Abstract: 本发明提供一种基于CPU‑GPU协同计算的并发动态图快照处理方法,包括:步骤S1、通过CPU获取动态图快照数据,其包括多张图快照,每张图快照包括多条边、每条边的源节点和目的节点;步骤S2、通过CPU对所述数据进行预处理,得到所有图快照间的共享分区子图和每张图快照的不共享分区子图,共享分区子图和不共享分区子图均包括多个源节点和每个源节点的多条出边;步骤S3、通过CPU和GPU相互配合处理所有图快照的不共享分区子图和所述共享分区子图,包括通过CPU并发执行多个图计算算法处理所述不共享分区子图的多个源节点各自的多条出边,以及通过GPU并发执行多个图计算算法处理所述共享分区子图的多个源节点各自的多条出边,得到每条出边对应的目的节点的属性值。
-
公开(公告)号:CN117933073A
公开(公告)日:2024-04-26
申请号:CN202410057102.0
申请日:2024-01-15
Applicant: 中国科学院计算技术研究所
IPC: G06F30/27 , G06F9/50 , G06F18/214 , G06F18/243 , G06N5/01 , G06F111/06
Abstract: 本发明提供了一种用于探索CPU微架构的设计空间的方法和装置,该方法包括:获取所有设计点和负载;利用运行负载的模拟器对部分设计点进行模拟输出对应的性能指标,并构建训练集训练性能预测模型;利用经训练的性能预测模型预测剩余设计点的性能指标,并执行以下操作:计算设计点的超体积值并确定候选设计点,若有候选设计点,将该候选设计点输入模拟器;若没有候选设计点,利用预设选择算法选择一个设计点输入模拟器;判断训练集中设计点的数量与所有设计点的数量的比值是否超过预设阈值,若否,对输入的设计点进行模拟并输出性能指标,将其加入训练集对性能预测模型进行迭代训练;若是,根据帕累托等级算法计算并输出CPU微架构的帕累托最优解集。
-
-
-
-
-
-
-
-
-