面向深度学习业务的加速装置及方法

    公开(公告)号:CN106156851A

    公开(公告)日:2016-11-23

    申请号:CN201610483365.3

    申请日:2016-06-24

    CPC classification number: G06N3/08

    Abstract: 本发明公开了一种面向深度学习业务的加速装置,用于对服务器中的待处理数据进行深度学习计算,包括:设置于服务器端的网卡、与所述服务器通过总线连接的计算控制模块、以及第一存储器和第二存储器;所述计算控制模块为可编程逻辑器件,包括:控制单元、数据存储单元、逻辑存储单元、以及分别与所述网卡、第一存储器和第二存储器通信的总线接口、第一通信接口和第二通信接口;所述逻辑存储单元用于存储深度学习控制逻辑;所述第一存储器用于存储网络各层的权重数据和偏置数据。利用本发明,可以有效提高计算效率,提升性能功耗比。

    神经网络处理器的逆向模拟方法及相关装置

    公开(公告)号:CN119227758A

    公开(公告)日:2024-12-31

    申请号:CN202411152985.X

    申请日:2024-08-21

    Abstract: 本申请提出一种神经网络处理器的逆向模拟方法及相关装置,该方法基于硬件算子中的算子参数以及算子参数对应的量化系数,构建硬件算子对应的量化模型;基于硬件算子的输入数据和量化模型,确定硬件算子对应的模拟输出数据;其中,模拟输出数据为对硬件算子计算结果的模拟数据;基于硬件算子的输入数据与硬件算子的模拟输出数据之间的对应关系,构建硬件算子对应的量化转换规则;基于硬件算子对应的量化转换规则,对神经网络模型进行量化训练和/或对量化后的神经网络模型进行测试验证。本方案能够保证神经网络模型的输出结果与神经网络处理器的运行环境中的输出结果保持一致,提高神经网络模型部署到神经网络处理器后的准确度。

    一种X型链路结构的多并发RAM数据传输方法及结构

    公开(公告)号:CN111597138B

    公开(公告)日:2024-02-13

    申请号:CN202010345579.0

    申请日:2020-04-27

    Abstract: 本发明提供一种X型链路结构的多并发RAM数据传输方法及结构,该方法包括:通过多个物理独立的子RAM映射成一个共享存储RAM;获取基于共享存储的片上多核处理器的每个核所对应的接口;在所述接口与所述子RAM之间设置多级链路传输结构,每一级所述链路传输结构设置有多个X型结构路由器;每个所述接口通过所述X型结构路由器与每个所述子RAM之间形成固定的传输路径,以对数据流进行发送或响应。本发明解决现有多并发RAM电路面积过大且仲裁电路过于复杂,造成布局布线困难的问题,无需路由FIFO和仲裁电路,因而硬件资源开销小,只有少量扇入扇出的x型路由器,简化布局布线并有效提升电路主频。

    模型训练方法、装置、设备及存储介质

    公开(公告)号:CN116628509B

    公开(公告)日:2023-12-01

    申请号:CN202310900540.4

    申请日:2023-07-21

    Abstract: 本申请公开了一种模型训练方法、装置、设备及存储介质,方法包括:当确定需要添加新增训练数据时,基于预先构建的batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,避免重复读取已使用的batch迭代训练模型,其中batch列表中按照训练时的读取顺序记录各batch的标识。对于新增训练数据构建成若干batch,将对新增训练数据所构建的各batch与剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练,可以最大程度地保持训练数据的分布一致性,提升模型的泛化能力。

    模型训练过程异常检测方法、装置、设备及存储介质

    公开(公告)号:CN116628508A

    公开(公告)日:2023-08-22

    申请号:CN202310893103.4

    申请日:2023-07-20

    Abstract: 本申请公开了一种模型训练过程异常检测方法、装置、设备及存储介质,方法包括:在模型并行训练过程中,按照设定周期记录训练效率数据,该训练效率数据表示在一个周期内集群中各设备节点对训练数据的使用效率。当集群中存在异常的设备节点时,该异常设备节点对训练数据的读取、使用效率会大大降低,导致整个周期内记录的训练效率数据也偏离正常值,因此,本申请基于当前周期的训练效率数据,确定集群在当前周期是否出现异常,可以及时准确地发现集群的异常。在确定集群在当前周期出现异常时,可以进一步启动进程进行通信异常分析,从而确定异常通信的设备节点,协助快速发现问题节点。

    一种排序电路以及芯片
    18.
    发明公开

    公开(公告)号:CN114356278A

    公开(公告)日:2022-04-15

    申请号:CN202111399689.6

    申请日:2021-11-19

    Abstract: 本发明公开了一种排序电路以及芯片,排序电路包括:多条第一类型排序链,其中,第一类型排序链分别包括n个依次连接的排序单元;第二类型排序链,包括n个依次连接的排序单元;其中,在输入数据排序阶段,第一类型排序链和第二类型排序链被配置为分别接收一组待处理数据,以并行对待处理数据进行初始排序,得到初始排序结果;在数据再排序阶段,第二类型排序链进一步被配置为对第一类型排序链和第二类型排序链的初始排序结果进行再次排序,以得到最终排序结果。该排序电路适用于数据量大的数据的排序,不受数据量的限制,应用范围广泛,且效率高。

    一种矩阵乘法计算方法及计算电路

    公开(公告)号:CN111581595A

    公开(公告)日:2020-08-25

    申请号:CN202010334174.7

    申请日:2020-04-24

    Inventor: 江宏武 于振华

    Abstract: 本发明公开了一种矩阵乘法计算方法及计算电路,其中,计算方法包括:存储第一阵列数据,其中,所述第一阵列数据被限定为多个Nα×β的第一子数据矩阵;存储第二阵列数据,其中,所述第二阵列数据被限定为多个β×γ的第二子数据矩阵;从第一子数据矩阵中同步获取N个同列第一数据,从第二子数据矩阵中获取第二数据,并在N个时钟周期依次分别将所述N个同列第一数据与所述第二数据进行矩阵乘法运算。通过此方法能够提高计算效率。

    激活函数的实现方法及装置、存储介质、电子设备

    公开(公告)号:CN108647045A

    公开(公告)日:2018-10-12

    申请号:CN201810229334.4

    申请日:2018-03-20

    Abstract: 本公开提供一种激活函数的实现方法及装置、存储介质、电子设备。该方法包括:基于采样点的预设位宽,将激活函数的定义域划分为N个子区间,并确定出每个子区间对应的采样点数目;获得每个采样点对应的采样值,生成所述激活函数的查找表;将所述激活函数所有的采样值进行分组处理,得到M个采样组,确定出每个采样组的基准采样值、以及该采样组内的剩余采样值与所述基准采样值之间的差值,所述差值消耗的存储位宽小于该差值对应的剩余采样值消耗的存储位宽;依据所述查找表的预设存储精度,对各采样组的基准采样值和差值进行压缩存储,用以节省所述查找表占用的存储空间。如此方案,可以在确保输出精度的同时,降低资源消耗,节省硅片面积。

Patent Agency Ranking