一种神经网络加速器及其运算方法

    公开(公告)号:CN105892989A

    公开(公告)日:2016-08-24

    申请号:CN201610183040.3

    申请日:2016-03-28

    CPC classification number: G06F7/575

    Abstract: 本发明适用于神经网络算法领域,提供了一种神经网络加速器及其运算方法,该神经网络加速器包括片内存储介质、片内地址索引模块、核心计算模块以及多ALU装置,片内存储介质,用于存储外部传来的数据或用于存储计算过程中产生的数据;片内数据索引模块,用于执行运算时根据输入的索引映射至正确的存储地址;核心计算模块用于执行神经网络运算;多ALU装置用于从核心计算模块或片内存储介质获取输入数据执行核心计算模块无法完成的非线性运算。本发明在神经网络加速器中引入多ALU设计,从而提升非线性运算的运算速度,使得神经网络加速器更加高效。

    基于大语言模型的旋转位置编码的编码方法及装置

    公开(公告)号:CN119622156A

    公开(公告)日:2025-03-14

    申请号:CN202411792329.6

    申请日:2024-12-06

    Abstract: 本发明提供了一种基于大语言模型的旋转位置编码的编码方法,包括:通过预定的迭代计算公式对三角函数进行迭代计算,通过上一轮三角函数值得到本轮三角函数值;获取至少一个输入向量,将所述输入向量和所述本轮三角函数值进行逐元素乘加运算,得到旋转位置编码的向量编码。本发明还提供一种基于大语言模型的旋转位置编码的编码装置、存储介质及电子设备。借此,本发明实现顾计算精度、计算效率与硬件开销的平衡,并显著降低片上存储需求,从而为大语言模型的加速提供有力支持。

    一种跨平台程序转译方法及装置
    14.
    发明公开

    公开(公告)号:CN119166163A

    公开(公告)日:2024-12-20

    申请号:CN202411333348.2

    申请日:2024-09-24

    Abstract: 本发明提出一种跨平台程序转译方法和装置,包括:获取用于在源平台运行的源程序,通过大语言模型将源程序中并行内置变量转换为基于循环指令的串行程序,根据目标平台深度学习加速器的硬件性能,将该串行程序进行循环分割并通过目标平台的内置并行变量绑定到目标平台,得到输入代码;检查该输入代码的存储使用情况,并根据预设的存储层次来对该输入代码的存储进行装饰,得到输入程序;将该输入程序中存在的张量运算还原成标量计算,使用该目标平台的张量运算指令重新表达该标量计算,得到用于在该目标平台运行的目的程序,该目标平台的深度学习加速器运行该目的程序,得到运行结果。

    一种基于芯粒结构编码的芯片性能预测方法及装置

    公开(公告)号:CN118504517A

    公开(公告)日:2024-08-16

    申请号:CN202410707802.X

    申请日:2024-06-03

    Abstract: 本发明提出一种基于芯粒结构编码的芯片性能预测方法和装置,包括:构建包括多个单芯粒设计和多个芯粒组合设计的芯粒设计空间;从该芯粒设计空间中选取一个单芯粒设计和一个芯粒组合设计,得到芯片结构的图数据和芯片中芯粒的特征参数,该图数据采用二维矩阵编码表示;构建包括结构编码器、参数编码器和特征解码器的芯片性能预测模型,将该图数据输入该结构编码器得到结构特征,将该特征参数输入该参数编码器得到参数特征,将该结构特征和该参数特征输入该特征解码器得到该芯片结构的性能和功耗作为性能预测结果。

    扩散模型加速器及其全网络差分数据流计算方法

    公开(公告)号:CN118446267A

    公开(公告)日:2024-08-06

    申请号:CN202410618369.2

    申请日:2024-05-17

    Abstract: 本发明提出一种扩散模型加速器,包含:片外内存,存储有上一时间步的原值;片上缓存,包含:权重缓存模块,与外片内存耦接,用于提取权重值进行缓存;输入特征缓存模块,用于读取输入差分激活值进行缓存;输出特征缓存模块,用于读取输出差分激活值进行缓存;处理引擎,包含:运算器阵列,用于读取缓存的该权重值与该输入差分激活值进行卷积乘法运算,生成该输出差分激活值;特殊处理模块,与该片外内存及该输出特征缓存模块耦接,用于从该片外内存获取该原值的符号位值;且利用该符号位值在该输出差分激活值上进行函数激活运算,生成增量输出值。其具有良好的加速效果,同时具有较高的能量效率和面积效率。

    计数方法及装置
    17.
    发明授权

    公开(公告)号:CN107818343B

    公开(公告)日:2021-01-08

    申请号:CN201711037201.9

    申请日:2017-10-30

    Abstract: 本公开提供了一种计数方法,包括:对一深度神经网络进行预训练;利用标记图像对预训练后的所述深度神经网络进行重训练,得到二分类的目标检测神经网络;以及利用所述二分类的目标检测神经网络对待计数的图像中包含的计数目标物体进行计数。本公开还提供了一种计数装置。本公开计数方法及装置应用范围广,可针对任意计数对象进行计数,节省人力并且提供了更高的通用性。

    用于分形智能处理器的分形可重配指令集

    公开(公告)号:CN111831331A

    公开(公告)日:2020-10-27

    申请号:CN202010688961.1

    申请日:2020-07-16

    Abstract: 本公开提供一种用于分形智能处理器的分形可重配指令集,该分形可重配指令集将本地指令或计算原语映射为用于分形运算的分形指令,该本地指令作用于向量数据或标量数据。该分形可重配指令集包括间接指令域。对应的,分形智能处理器的控制系统包括分解模块、降级模块及记录模块;分解模块用于对分形可重配指令集进行串行分解;降级模块用于对串行分解后的串行分解子指令进行降级;分解模块还用于对降级后的串行分解子指令进行并行分解。记录模块,用于在每一次串行分解之前,替换所间接指令域的值,以实现对分形可重配指令集的动态控制。该分形可重配指令抽象层次高,表达灵活性强,结合控制系统的硬件架构支持,可解决计算过程中的失效问题。

    神经网络运算装置及应用其进行运算的方法

    公开(公告)号:CN108170640B

    公开(公告)日:2020-06-09

    申请号:CN201711452014.7

    申请日:2017-10-17

    Abstract: 本公开提供一种神经网络运算装置和方法,其中装置包括:运算部分,用于完成所述卷积运算,包含多个运算单元组,多个所述运算单元组呈X行Y列的阵列式分布,运算单元组间以S形方向和/或逆S形方向传递数据,其中X和Y分别为正整数;缓存,用于向所述运算单元组传送数据以及接收运算单元组运算后的数据。通过采用S形和逆S形在运算单元中完成数据的传递,从而能够有效加速神经网络运算的同时,降低了权值的反复读取和部分和反复存取所带来的访存功耗。

Patent Agency Ranking