通过对权重矩阵实施空间局部性并实现频率压缩来压缩(多个)深度网络的全连接/递归层

    公开(公告)号:CN111357019A

    公开(公告)日:2020-06-30

    申请号:CN201880074735.5

    申请日:2018-11-30

    Abstract: 一种系统,具有存储计算机可执行组件的存储器以及执行计算机可执行组件的处理器,该系统通过利用权重矩阵的空间局部性并实现频率变换和压缩来减少与训练神经网络有关的数据大小。接收组件接收以压缩的频域权重矩阵形式的神经网络数据。分割组件将初始权重矩阵分割成原始子分量,其中相应的原始子分量具有空间权重。采样组件将广义权重分布应用于相应的原始子分量以生成相应的归一化子分量。变换组件对相应的归一化子分量应用变换。裁剪组件裁剪经变换的相应的归一化子分量的高频权重以产生低频归一化子分量的集合,以生成原始子分量的压缩表示。

    统计感知权重量化
    12.
    发明公开

    公开(公告)号:CN110598838A

    公开(公告)日:2019-12-20

    申请号:CN201910509429.6

    申请日:2019-06-13

    Abstract: 呈现了用于统计感知权重量化的技术。为了促进降低权重的比特精度,对于权重集,量化器管理组件可以根据权重的权重值的平方的平均值和该权重值的绝对值的平均值的线性或非线性函数来估计量化标度值以应用于权重,其中量化标度值被确定为具有比与其它量化标度值相关联的所有或至少几乎所有其它量化误差更小的量化误差。量化器组件应用量化标度值以对称和/或均匀地量化权重集的层的权重,从而生成量化的权重,权重使用舍入来量化。相应的量化的权重可以用于促进深度学习系统的训练和推理。

    由补偿指令使能的低精度深度神经网络

    公开(公告)号:CN112119407B

    公开(公告)日:2024-07-09

    申请号:CN201980032566.3

    申请日:2019-06-13

    Abstract: 提供了一种补偿的深度神经网络(补偿‑DNN)。接收具有一组分量的第一矢量和具有一组相应分量的第二矢量。第一矢量的分量包括第一量化值和第一补偿指令,第二矢量的对应分量包括第二量化值和第二补偿指令。将第一量化值乘以第二量化值以计算原始乘积值。根据第一和第二补偿指令对原始乘积值补偿量化误差以产生补偿乘积值。将补偿的乘积值加到点积的累加值中。将累加值转换为点积的输出向量。输出向量包括输出量化值和输出补偿指令。

    具有用于高效参数更新的降低精度参数分量的机器学习硬件

    公开(公告)号:CN114341892A

    公开(公告)日:2022-04-12

    申请号:CN202080061406.4

    申请日:2020-08-17

    Abstract: 一种用于训练和推断神经网络的装置包括经配置以至少部分地基于具有包括第二数量的位的第二格式的第二权重和具有包括第三数量的位的第三格式的残差来生成具有包括第一数量的位的第一格式的第一权重的电路。第二数量的位和第三数量的位各自少于第一数量的位。该电路进一步经配置以至少部分地基于第一权重来更新第二权重,以及至少部分地基于经更新的第二权重和第一权重来更新残差。该电路进一步经配置以至少部分基于经更新的第二权重和经更新的残差来更新第一权重。

    促进神经网络效率
    17.
    发明公开

    公开(公告)号:CN111226233A

    公开(公告)日:2020-06-02

    申请号:CN201880067753.0

    申请日:2018-10-04

    Abstract: 描述了促进提高神经网络的效率的技术。在一个实施例中,提供了一种系统,该系统包括存储计算机可执行组件的存储器和执行存储在存储器中的计算机可执行组件的处理器。在一个实现方式中,计算机可执行组件包括选择输出限制的初始值的初始化组件,其中输出限制指示神经网络的激活函数的输出的范围。计算机可执行组件还包括训练组件,训练组件在训练期间将输出限制的初始值修改为输出限制的第二值,输出限制的第二值被提供为激活函数的参数。计算机可执行组件还包括激活函数组件,激活函数组件基于作为参数的输出限制的第二值来确定激活函数的输出。

    利用分块GEMM的深度学习加速器架构

    公开(公告)号:CN110390390A

    公开(公告)日:2019-10-29

    申请号:CN201910306082.5

    申请日:2019-04-17

    Abstract: 本申请涉及利用分块GEMM的深度学习加速器架构。计算矩阵被配置为包括一组计算单元,每个计算单元包括乘法器和累加器,乘法器和累加器中的每一个使用至少一个浮点单元(FPU)形成。累加器阵列被配置为包括一组外部累加器。操作计算矩阵以使用第一输入向量的第一块和第二输入向量的第一块来产生块点积。操作累加器阵列以使用块点积输出第一输入向量和第二输入向量的点积。

Patent Agency Ranking