深度卷积的在线计算部件

    公开(公告)号:CN112632459B

    公开(公告)日:2023-07-07

    申请号:CN202011525795.X

    申请日:2020-12-22

    Abstract: 本发明公开一种深度卷积的在线计算部件,包括标准卷积部件、累加器和连接于累加器数据输出接口上的深度卷积部件;所述深度卷积部件包括若干级激活值站台、若干个乘法器、若干个权重值站台和至少一个设置于2个相邻激活值站台之间的延迟站台,每一个乘法器配备1个激活值站台和1个权重值站台,延迟站台的延迟值D等于输入激活图的宽度,权重值在卷积计算开始之前预先置位,激活值站台采用逐级推进的方式注入运算部件,每一级激活值站台中当前存放的结果送到下一级激活值站台。本发明在不破坏累加器输出数据结构的前提下,高效地完成了深度卷积计算,可以很大程度提高深度卷积运算的计算资源利用率,加速整个神经网络的运算速度。

    一种神经网络硬件加速器的数据在线压缩方法及装置

    公开(公告)号:CN115660056A

    公开(公告)日:2023-01-31

    申请号:CN202211363442.3

    申请日:2022-11-02

    Abstract: 本申请公开了一种神经网络硬件加速器的数据在线压缩方法及装置,方法包括对神经网络输出的第一激活值进行转换处理,得到第一激活掩码;将第一激活掩码划分为至少两组激活子掩码,并按照预设顺序依次对每组激活子掩码进行累加处理,得到激活位置掩码;基于第一激活掩码、激活位置掩码以及神经网络输出的权重值,计算出激活选择掩码;根据激活选择掩码对第一激活值进行筛选处理,得到目标激活值,并基于目标激活值生成第二激活掩码。通过对激活值进行在线掩码的设置以及对权重值的离线压缩,不仅对不同的神经网络压缩的适应性强,还可提高数据移动效率,在降低功耗的同时保证了吞吐量。

    一种支持融合算子生成的快速代码生成装置

    公开(公告)号:CN115357313A

    公开(公告)日:2022-11-18

    申请号:CN202211053429.8

    申请日:2022-08-31

    Abstract: 一种支持融合算子生成的快速代码生成装置,属于深度学习技术领域。本发明包括:LDM区域划分模块,用于根据上层框架输入的网络尺寸参数,对本地的存储空间进行功能分区;融合算子地址配置模块,用于根据上层框架输入的融合算子类型,定义算子中输入、输出、中间结果数据在功能分区中的地址;融合算子数据交互模块,提供本地与主存,及本地与本地之间异步访存的函数接口;SIMD融合算子计算模块,用于根据融合算子地址配置模块生成的地址,对算子进行融合;脉动阵列指令配置模块,用于对驱动脉动阵列进行计算的指令进行配置。本发明能够有效降低代码错误率,提高代码生成效率,简化调试过程。

    芯片访存通路的高效分段测试系统、方法

    公开(公告)号:CN110718263B

    公开(公告)日:2021-08-10

    申请号:CN201910846816.9

    申请日:2019-09-09

    Abstract: 芯片访存通路的高效分段测试系统、方法,计算机体系结构与处理器微结构设计技术领域。系统包括存储控制器和存储器;存储控制器在其内部设有测试存储器、微操作控制器、IO寄存器,测试存储器用于模拟存储器的读、写延迟行为。方法包括步骤S01,存储控制器发送维护访问请求或CPU访问请求给存储器,检测存储器的访存通路能正常访问,执行步骤S02,不能正常访问,执行步骤S03;步骤S02,存储控制器在测试模式下与测试存储器进行读写数据模式测试;步骤S03,IO寄存器触发微操作控制器工作,微操作控制器发送命令给存储器,用于测试并定位访存通路存在的问题。本发明便于定位芯片访存通路问题,加速芯片的访存通路调试过程,还可实现多种DDR4流程的调试工作。

    一种遥感影像智能模型分布式并行方法

    公开(公告)号:CN112631801A

    公开(公告)日:2021-04-09

    申请号:CN202011530140.1

    申请日:2020-12-22

    Abstract: 本发明公开一种遥感影像智能模型分布式并行方法,包括以下步骤:从业务应用系统中接入遥感影像的文件系统地址和模型选取字段;通过图像预处理库读取遥感影像;大图的元数据信息和切片的元数据信息通过JSON序列化,并采用PUSH机制将大图的元数据信息与切片的元数据信息压入内存消息队列中;采用异步多线程竞争机制和阻塞访问的访问规则访问内存消息队列;检测结果的元数据信息通过JSON序列化并PUSH到内存消息队列中;识别结果的元数据信息通过JSON序列化并PUSH到内存消息队列中;最终检测识别的元数据信息封装成统一查询接口。本发明可有效满足海量遥感影像大吞吐量、准实时计算和敏捷模型并行部署的需求。

    基于混合粒度乘法部件的多精度乘法器及运算方法

    公开(公告)号:CN112631548A

    公开(公告)日:2021-04-09

    申请号:CN202011524239.0

    申请日:2020-12-22

    Abstract: 本发明公开一种基于混合粒度乘法部件的多精度乘法器及运算方法,所述运算方法包括以下步骤:调度器将乘法运算的两个位宽分别为Mbit、Nbit的操作数进行分割;调度器计算步骤1中获得的每一组细粒度乘法运算结果需要向左移动的位数;调度器将步骤1中分割后的细粒度乘法运算的两个操作数和步骤2中对应的左移位数打包成乘法器指令;调度器将步骤3中生成的乘法器指令送入计算单元的指令队列;细粒度乘法部件完成细粒度的乘法运算;将乘法结果向左移位后的结果送入加法树。本发明很好的平衡了计算延迟、计算能力的利用率和控制结构复杂度三者之间的关系,降低了控制结构的复杂度。

    硬件事务级仿真方法、引擎及系统

    公开(公告)号:CN102760176B

    公开(公告)日:2015-02-11

    申请号:CN201110110834.4

    申请日:2011-04-29

    Abstract: 本发明提供了一种硬件事务级仿真方法、引擎及系统,所述方法包括:加载目标系统模型,根据所述目标系统模型创建至少一个仿真线程;依次执行所述仿真线程,将执行仿真线程产生的仿真事件加入事件队列,所述仿真事件记录待触发的仿真线程的线程号;调取所述事件队列中的仿真事件,调度并执行调取的仿真事件记录的待触发的仿真线程的线程号指向的仿真线程,将执行仿真线程产生的仿真事件加入所述事件队列。本发明基于事件驱动的仿真机制,加快了仿真速度,同时提供了精简的仿真建模接口能更方便地描述具有普遍并发性的硬件系统。

    输入输出能力增强的可重构微服务器

    公开(公告)号:CN103034295A

    公开(公告)日:2013-04-10

    申请号:CN201210575825.7

    申请日:2012-12-26

    Abstract: 一种输入输出能力增强的可重构微服务器,包括:微处理器、系统总线、内存、可重构加速部件以及输入输出外设;其中,微处理器、内存和输入输出外设连接至系统总线;微处理器直接连接至可重构加速部件;可重构加速部件包括:可重构运算加速模块、多个可重构I/O增强单元、以及与可重构I/O增强单元中的每一个单独连接的多个I/O控制器;其中,多个可重构I/O增强单元连接至可重构运算加速模块和系统总线;而且其中,可重构I/O增强单元中的每一个的对应的多个I/O控制器连接至具有相同资源类型的I/O设备,由此可重构I/O增强单元中的每一个及其对应的多个I/O控制器用于控制与具有相同资源类型的I/O设备之间的数据交换。

Patent Agency Ranking