一种用于异构计算的融合算子设计方法和异构计算系统

    公开(公告)号:CN115374912A

    公开(公告)日:2022-11-22

    申请号:CN202211038174.8

    申请日:2022-08-29

    Abstract: 本发明涉及计算机数据计算领域,具体涉及到异构计算系统的设计。本发明是通过以下技术方案得以实现的:一种用于异构计算的融合算子设计方法,包含如下步骤:S01、归一化算子划分步骤;在该步骤中,将归一化算子划分成和计算算子与线性缩放算子两个算子,S02、算子融合步骤;依次将所述线性缩放算子、激活算子、卷积算子、所述和计算算子组成一个融合算子。本发明的目的是提供一种用于异构计算的融合算子设计方法和异构计算系统,在保证操作的正确性和操作种类不变的情况下,对算子的融合方式进行全新的设计和拆分,使得大量计算过程的数据交互均在片上进行,优化数据交互的带宽使用效率。

    一种动态可演化智能处理芯片结构

    公开(公告)号:CN112631968B

    公开(公告)日:2022-10-04

    申请号:CN202011524240.3

    申请日:2020-12-22

    Abstract: 本发明公开一种动态可演化智能处理芯片结构,包括:通用处理器、智能处理单元、内存控制器和内存接口、可编程逻辑区域、可编程逻辑控制器,所述可编程逻辑区域进一步包括:动态系统总线、动态IO控制器和动态智能计算单元;动态系统总线:可以根据需求,对其拓扑结构、接口数量和规格、仲裁机制等进行重构,动态IO控制器:用于根据系统对于IO需求的不同,重构为一个或者多个不同类型的IO控制器,动态智能计算单元:用于根据需要重构为特定的硬件结构,实现对计算、访存、IO的定制加速。本发明可实现对整个系统中计算、访存、IO等方面的性能和效率优化,提高智能应用的计算效率,实现智能应用的全栈定制加速。

    一种基于二叉树的大窗口访存流量调度缓冲结构及方法

    公开(公告)号:CN110688209B

    公开(公告)日:2022-09-13

    申请号:CN201910852487.9

    申请日:2019-09-10

    Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种基于二叉树的大窗口访存流量调度缓冲结构及方法。一种基于二叉树的大窗口访存流量调度缓冲结构,包括存储条目,用于记录访存请求的信息;空条目队列,用于以队列的形式挂载存储条目;调度二叉树,用于以二叉树的形式组织存储条目。访存请求的信息包括访存请求信息、条目的左子指针、条目的右子指针。本申请在访存请求到达缓冲时,即将其组织成二叉树结构,在发射时只需要选择二叉树的根节点即可,能够在面对大量访存请求时,实现大规模的访存请求调度,挖掘访存序列的局部性,提高访存带宽,缓解访存墙问题。

    一种定制阵列计算结构上复杂线性代数运算的实现方法

    公开(公告)号:CN112632461A

    公开(公告)日:2021-04-09

    申请号:CN202011524214.0

    申请日:2020-12-22

    Abstract: 本发明公开一种定制阵列计算结构上复杂线性代数运算的实现方法,包括以下步骤:步骤1:根据线性代数运算的类型,对输入矩阵A,B,C进行分块,分块粒度为nb;步骤2:将输入矩阵分解为多个小规模矩阵和剩余矩阵;步骤3:在定制阵列计算结构上完成小规模矩阵的线性代数运算;步骤4:在定制阵列计算结构上完成矩阵乘运算;步骤5:根据小规模矩阵上线性代数运算的计算结果和矩阵乘运算的计算结果更新剩余矩阵;步骤6:若剩余矩阵的规模大于等于nb,则将剩余矩阵作为输入矩阵,返回步骤1执行,否则运算完成。本发明可实现基本线性代数子程序库中所定义的level‑3运算或复杂线性代数运算在定制计算结构上的高性能、高效执行。

    深度卷积的在线计算部件
    45.
    发明公开

    公开(公告)号:CN112632459A

    公开(公告)日:2021-04-09

    申请号:CN202011525795.X

    申请日:2020-12-22

    Abstract: 本发明公开一种深度卷积的在线计算部件,包括标准卷积部件、累加器和连接于累加器数据输出接口上的深度卷积部件;所述深度卷积部件包括若干级激活值站台、若干个乘法器、若干个权重值站台和至少一个设置于2个相邻激活值站台之间的延迟站台,每一个乘法器配备1个激活值站台和1个权重值站台,延迟站台的延迟值D等于输入激活图的宽度,权重值在卷积计算开始之前预先置位,激活值站台采用逐级推进的方式注入运算部件,每一级激活值站台中当前存放的结果送到下一级激活值站台。本发明在不破坏累加器输出数据结构的前提下,高效地完成了深度卷积计算,可以很大程度提高深度卷积运算的计算资源利用率,加速整个神经网络的运算速度。

    一种图像检测模型的高效全整数量化方法

    公开(公告)号:CN112508125A

    公开(公告)日:2021-03-16

    申请号:CN202011529800.4

    申请日:2020-12-22

    Abstract: 本发明公开一种目标检测模型的高效全整数量化方法,所述图像检测模型中各层卷积的权值、偏置、输入特征图和输出特征图均采用整数表示,量化推理过程均采用整数计算,具体包括以下步骤:对实数版本的图像检测模型进行正常训练、量化感知训练、量化参数生成、应用生成的各层参数,在计算设备上进行基于全整数运算的推理。本发明可以大大减少图像检测模型的推理时间,减少模型在磁盘存储和内存占用方面的空间,同时保持图像检测模型的高检测精度,有助于在FPGA等计算设备上实现更加高效的图像目标检测系统。

    一种采用RISC架构的CPU系统
    47.
    发明授权

    公开(公告)号:CN110688156B

    公开(公告)日:2021-02-02

    申请号:CN201910864343.5

    申请日:2019-09-12

    Abstract: 本发明提供一种直接支持64个结构寄存器的RISC指令集编码格式,属于计算机体系结构和处理器微结构技术领域。该直接支持64个结构寄存器的RISC指令集编码格式中,所有指令编码保持32位定长,编码字段包括结构寄存器索引字段Ra、结构寄存器索引字段Rb、结构寄存器索引字段Rc、结构寄存器索引字段Rd、主操作码OPC、功能码FUNC、子功能码SUBF、立即数#b、立即数#c、立即数偏移字段disp。本发明在不增加指令字长,满足RISC指令集基本功能需求的前提下,降低因结构寄存器数量不足而带来的编程难度,避免小容量结构寄存器与大容量物理寄存器之间进行映射的逻辑开销。

    一种直接支持64个结构寄存器的RISC指令集编码格式

    公开(公告)号:CN110688156A

    公开(公告)日:2020-01-14

    申请号:CN201910864343.5

    申请日:2019-09-12

    Abstract: 本发明提供一种直接支持64个结构寄存器的RISC指令集编码格式,属于计算机体系结构和处理器微结构技术领域。该直接支持64个结构寄存器的RISC指令集编码格式中,所有指令编码保持32位定长,编码字段包括结构寄存器索引字段Ra、结构寄存器索引字段Rb、结构寄存器索引字段Rc、结构寄存器索引字段Rd、主操作码OPC、功能码FUNC、子功能码SUBF、立即数#b、立即数#c、立即数偏移字段disp。本发明在不增加指令字长,满足RISC指令集基本功能需求的前提下,降低因结构寄存器数量不足而带来的编程难度,避免小容量结构寄存器与大容量物理寄存器之间进行映射的逻辑开销。

    一种基于并行循环压缩的余数运算电路及方法

    公开(公告)号:CN110688094A

    公开(公告)日:2020-01-14

    申请号:CN201910861698.9

    申请日:2019-09-12

    Abstract: 本发明属于计算机整数乘法校验设计技术领域,特别涉及一种基于并行压缩循环的余数运算电路及方法。包括多个输入端,分别用于输入多个同位宽的二进制数;模加法器,用于输出求余结果;一层或多层进位保留加法器组件,设置在多个输入端和模加法器之间;每一层进位保留加法器组件包括一个或者多个进位保留加法器;最上层的进位保留加法器的两个输出连接至模加法器的输入,其余每层进位保留加法器的和输出作为下层进位保留加法器的输入,其余每层进位保留加法器的进位输出向最左移动1位以后作为下层进位保留加法器的输入;同位宽的二进制数由整数拆分而成。仅在最后输出一级采用了模加法器,而中间级均采用进位保留加法器提高了电路的时序性能。

    多虚通道传输时共享与私有相结合的缓冲设计方法与装置

    公开(公告)号:CN110661728A

    公开(公告)日:2020-01-07

    申请号:CN201910866274.1

    申请日:2019-09-12

    Abstract: 本发明提供多虚通道传输时共享与私有相结合的缓冲设计方法与装置,属于计算机体系结构与处理器微结构设计技术领域。该多虚通道传输时共享与私有相结合的缓冲设计方法与装置包括如下步骤:S1:发送器获取缓冲条目中的待发送网络包的类型、NO域的值和信用值,如果NO域的值为0和信用值为非0则将待发送网络包发送出去;S2:将与待发送网络包的同类型所有条目的NO域的值减1、将本地待发送网络包的信用值减1,将该网络包所在条目释放;S3:接收器判断私有缓冲区域是否存在空闲,如果有则接收器将待发送网络包存储在私有缓冲区域,如果没有则接收器将待发送网络包存储在共享缓冲区域。本发明灵活性较高。

Patent Agency Ranking