具有异常块浮点的神经网络激活压缩

    公开(公告)号:CN113273082B

    公开(公告)日:2025-04-25

    申请号:CN201980087238.3

    申请日:2019-12-16

    Abstract: 公开了用于使用具有异常值的经量化精度数据格式训练神经网络加速器的装置和方法,并且具体地,公开了用于以压缩格式存储来自神经网络的激活值以供在神经网络的前向和后向传播训练期间使用。在所公开的技术的某些示例中,计算系统被配置为执行针对神经网络的层的前向传播以产生第一块浮点格式的第一激活值。在一些示例中,由前向传播生成的激活值被压缩器转换为比第一块浮点格式具有更窄的数值精度的第二块浮点格式。包括尾数和/或指数的附加位的异常值被存储在用于激活值的子集的辅助存储装置中。压缩的激活值被存储在存储器中,其中压缩的激活值可以被取回以供在后向传播期间使用。

    融合用于神经网络硬件加速器的算子

    公开(公告)号:CN118369667A

    公开(公告)日:2024-07-19

    申请号:CN202280079267.7

    申请日:2022-09-27

    Inventor: 奚锦文 E·S·钟

    Abstract: 本公开的实施例包括针对融合用于神经网络硬件加速器的算子的系统和方法。标识被包括在神经网络中的映射函数的数据路径中的多个向量乘法运算。将多个向量乘法运算组合成映射函数的数据路径中的单个向量乘法运算。对可编程集成电路(IC)进行编程以实现神经网络的映射函数。

    使用共享指数的块浮点计算

    公开(公告)号:CN112088354B

    公开(公告)日:2024-06-25

    申请号:CN201980030836.7

    申请日:2019-04-27

    Inventor: D·洛 E·S·钟

    Abstract: 用于神经网络中的块浮点计算的系统接收多个浮点数。针对多个浮点数中的每个浮点数的指数部分的指数值被标识,并且浮点数的尾数部分被分组。分组的尾数部分的共享指数值根据所标识的指数值被选择,并且然后该共享指数值从分组的尾数部分中被去除,以定义多层共享指数块浮点数。对多层共享指数块浮点数的分组的尾数部分执行一个或多个点积运算,以获得单独结果。单独结果被移位以生成最终的点积值,该最终的点积值被用来实现神经网络。共享指数块浮点计算减少了处理时间,系统准确度降低较少。

    利用链接指令的神经网络处理

    公开(公告)号:CN110352435B

    公开(公告)日:2023-10-27

    申请号:CN201880013993.2

    申请日:2018-02-08

    Abstract: 提供了用于神经网络处理的硬件和方法。提供了一种在包括流水线的硬件节点中的方法,该流水线具有:矩阵矢量单元(MVU);被连接以接收来自矩阵矢量单元的输入的第一多功能单元;被连接以接收来自第一多功能单元的输出的第二多功能单元;以及被连接以接收来自第二多功能单元的输出的第三多功能单元。该方法包括使用MVU执行第一类型指令,该第一类型指令只能由MVU执行以生成第一结果。该方法还包括执行第二类型指令,该第二类型指令只能由多功能单元之一执行,并且生成第二结果,并且在不将两个结果中的任何一个存储在全局寄存器中的情况下,将第二结果传递给第二多功能和第三多功能单元。

    分层和共享指数浮点数据类型
    6.
    发明公开

    公开(公告)号:CN116830077A

    公开(公告)日:2023-09-29

    申请号:CN202280014048.0

    申请日:2022-01-20

    Abstract: 本公开的实施例包括用于提供分层和共享指数浮点数据类型的系统和方法。第一共享指数值和第二共享指数值基于多个浮点值的指数值而被确定。第三共享指数值基于第一共享指数值和第二共享指数值而被确定。第一差值和第二差值基于第一共享指数值、第二共享指数值和第三共享指数值而被确定。符号值和尾数值针对多个浮点值而被确定。针对多个浮点值中的每个浮点值的符号值和尾数值、第三共享指数值、第一差值和第二差值被存储在针对共享指数浮点数据类型的数据结构中。

    硬件实现的负载平衡
    7.
    发明公开

    公开(公告)号:CN116594781A

    公开(公告)日:2023-08-15

    申请号:CN202310720759.6

    申请日:2017-12-20

    Abstract: 提供一种服务器系统,其包括多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,该至少一个处理器由内部数据总线通信地耦合到硬件加速设备并执行主机服务器实例,多个服务器的主机服务器实例共同提供软件平面,多个服务器的硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面,其中每个硬件加速设备在存储器中维护包含负载数据的数据结构,该负载数据指示多个目标硬件加速设备中的每个目标硬件加速设备的负载,并且其中请求硬件加速设备将该请求路由到目标硬件加速设备,该目标硬件加速设备由数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。

    用于训练DNN的缩放学习
    9.
    发明公开

    公开(公告)号:CN113196304A

    公开(公告)日:2021-07-30

    申请号:CN201980084632.1

    申请日:2019-12-10

    Abstract: 公开了用于调节神经网络的超参数以补偿噪声(诸如经由神经网络的一个或多个参数的量化而引入的噪声)的方法和装置。在一些示例中,调节可以包括基于表示神经网络中存在的噪声的至少一个度量来缩放超参数。至少一个度量可以包括针对神经网络的权重(诸如边权重和激活权重)的噪声信号比。在量化神经网络中,用于在反向传播期间计算针对层的梯度更新的学习率超参数可以基于至少一个度量被缩放。在一些示例中,当计算针对其他层的梯度更新时,可以使用相同的已缩放学习率。

    用于增加的工作流优化的独立可联网硬件加速器

    公开(公告)号:CN107710161B

    公开(公告)日:2021-06-25

    申请号:CN201680033128.5

    申请日:2016-06-08

    Abstract: 专用处理设备包括处理电路和网络传输电路两者,所述处理电路被预先配置为比通用中央处理单元更快地执行计算操作的离散集合,所述网络传输电路将每个个体专用处理设备通信地耦合到网络作为它自己的独有网络客户端。来自由服务器计算设备的通用中央处理单元执行的工作流的针对硬件加速的请求根据表被引导至硬件加速器,该表将可用硬件加速器与它们被优化以执行的计算操作相关联。在可用硬件加速器中的负载平衡以及动态修改通过对这种表的更新来完成。硬件加速器的工作流的一部分被打包并且被提供给这种硬件加速器,包括经由网络通信被提供给包括网络传输电路并且充当它们自己的独有网络客户端的专用处理设备。

Patent Agency Ranking