计数方法及装置
    61.
    发明公开

    公开(公告)号:CN107818343A

    公开(公告)日:2018-03-20

    申请号:CN201711037201.9

    申请日:2017-10-30

    Abstract: 本公开提供了一种计数方法,包括:对一深度神经网络进行预训练;利用标记图像对预训练后的所述深度神经网络进行重训练,得到二分类的目标检测神经网络;以及利用所述二分类的目标检测神经网络对待计数的图像中包含的计数目标物体进行计数。本公开还提供了一种计数装置。本公开计数方法及装置应用范围广,可针对任意计数对象进行计数,节省人力并且提供了更高的通用性。

    一种神经网络加速器及其运算方法

    公开(公告)号:CN105892989B

    公开(公告)日:2017-04-12

    申请号:CN201610183040.3

    申请日:2016-03-28

    CPC classification number: G06F7/575

    Abstract: 本发明适用于神经网络算法领域,提供了一种神经网络加速器及其运算方法,该神经网络加速器包括片内存储介质、片内地址索引模块、核心计算模块以及多ALU装置,片内存储介质,用于存储外部传来的数据或用于存储计算过程中产生的数据;片内数据索引模块,用于执行运算时根据输入的索引映射至正确的存储地址;核心计算模块用于执行神经网络运算;多ALU装置用于从核心计算模块或片内存储介质获取输入数据执行核心计算模块无法完成的非线性运算。本发明在神经网络加速器中引入多ALU设计,从而提升非线性运算的运算速度,使得神经网络加速器更加高效。

    一种神经网络的处理方法、系统

    公开(公告)号:CN105930902A

    公开(公告)日:2016-09-07

    申请号:CN201610240416.X

    申请日:2016-04-18

    CPC classification number: G06F15/78 G06N3/063 G06F15/7807

    Abstract: 本发明适用于计算机技术领域,提供了一种神经网络处理系统的处理方法、系统,该神经网络的处理系统包括由多个核心处理模块组成的多核心处理模块、片上存储介质、片内地址索引模块以及ALU模块,多核心处理模块用于执行神经网络运算中的向量乘加操作,ALU模块用于从所述多核心处理模块或片上存储介质获取输入数据执行多核心处理模块无法完成的非线性运算,其中多个核心处理模块共享片上存储介质以及ALU模块,或者多个核心处理模块具有独立的片上存储介质以及ALU模块。本发明在神经网络处理系统中引入多核设计,从而提升神经网络处理系统的运算速度,使得神经网络处理系统性能更高,更加高效。

    大模型推理芯片的验证方法、装置、存储介质

    公开(公告)号:CN119623377A

    公开(公告)日:2025-03-14

    申请号:CN202411790989.0

    申请日:2024-12-06

    Abstract: 本发明提出一种大模型推理芯片的验证方法、装置、存储介质,该方法包含:根据大模型推理芯片的设计文档搭建模拟器核心状态机,并基于状态机搭建大模型推理芯片的模拟器;抓取大模型推理芯片的模型推理算法各步骤的数据流踪迹,获取踪迹文件;利用模拟器模拟推理过程,利用权重类型文件提供模型参数,利用激活类型文件比对模型推理算法执行过程中在相同输入下运算得到的激活数据,验证数据流踪迹的正确性;若数据流踪迹比对成功,抓取符合硬件行为仿真验证格式要求的踪迹文件,得到筛选后的跟踪文件;利用筛选后的跟踪文件作为金标准,对大模型推理芯片进行验证。该方法提高了对大模型推理芯片行为的模拟效果,提高了验证效率。

    基于芯粒和近存计算的边缘端大语言模型推理加速方法

    公开(公告)号:CN119476487A

    公开(公告)日:2025-02-18

    申请号:CN202411551388.4

    申请日:2024-11-01

    Abstract: 本发明提出一种基于芯粒和近存计算的边缘端大语言模型推理加速方法和装置,包括模型权重储存在Flash,整个推理过程包含的全部矩阵向量乘法的运算由Flash和NPU协同完成。在Flash中计算的部分:需要NPU把输入向量发送到Flash中,使用Flash内部存储的权重矩阵和该输入向量做矩阵向量乘法,得到结果后发送回NPU。在NPU中计算的部分:NPU中存储着输入向量,需要从Flash中逐块读取权重矩阵,并在NPU中完成运算。运算结果保存在NPU中。注意力运算由NPU独立完成。特殊函数计算由NPU独立完成。NPU与Flash各自承担的任务比例,使得二者能更好地协同完成大语言模型的推理任务。

    算子库生成方法、装置
    66.
    发明公开

    公开(公告)号:CN118259889A

    公开(公告)日:2024-06-28

    申请号:CN202410479500.1

    申请日:2024-04-19

    Abstract: 本发明提出一种算子库生成方法、装置,该方法包含:获取给定加速器目标平台体系结构的约束条件;基于所述约束条件,利用预设规则构造约束满足问题;给定一待优化的程序,利用所述约束满足问题生成程序优化的一搜索空间;依据所述约束满足问题,生成一程序表示,利用所述程序表示训练程序代价模型,所述程序代价模型用于预测程序性能。该方法能够在给定的搜索时间内生成高性能的库程序,适用于多种不同加速器目标平台上,提升了编译速度。

    用于智能处理器的指令执行方法、装置及电子设备

    公开(公告)号:CN111831339B

    公开(公告)日:2024-04-02

    申请号:CN202010688860.4

    申请日:2020-07-16

    Abstract: 本公开提供一种用于智能处理器的指令执行方法及装置,方法包括:指令译码,将执行分形运算的串行分解子指令译码为本地指令及分形运算指令;数据装载,将分形运算所需数据从外部存储单元读取至智能处理器的本地存储单元;操作执行,根据分形运算指令对数据完成分形运算;规约执行,根据本地指令对分形运算的结果进行规约运算;数据写回,将本地存储器中存储的规约运算结果读取至外部存储器;指令译码、数据装载、操作执行、规约执行及数据写回按照流水线方式执行。该方法可以在任意时将全部层次上的全部模块调动起来,提供了智能处理器的数据吞吐率,从而提高了智能处理器的执行效率。

    用于智能处理器的内存管理装置、方法及电子设备

    公开(公告)号:CN111831582B

    公开(公告)日:2024-03-29

    申请号:CN202010689148.6

    申请日:2020-07-16

    Abstract: 本公开提供一种用于智能处理器的内存管理装置及方法,装置包括:循环内存段,包括第一内存区域、第二内存区域及第三内存区域,分别用于所述智能处理器进行运算过程中的分形运算、规约运算、数据装载及写回时调用;静态内存段,包括第四内存区域及第五内存区域,用于存储所述智能处理器进行运算时输入的分形指令。基于指令执行生命周期的差别,将智能处理器控制系统内存进行分类管理,可提高智能处理器的执行效率,并且,内存管理装置中增加张量置换单元可以进一步显著改善智能处理器的执行效率,同时数据一致性也得以维护。

    一种捕捉环境中可控因素的表示学习方法及系统

    公开(公告)号:CN117688983A

    公开(公告)日:2024-03-12

    申请号:CN202211014964.2

    申请日:2022-08-23

    Abstract: 本发明提出一种捕捉环境中可控因素的表示学习方法和系统,包括:智能体采集在当前所处环境的观测图像,通过卷积神经网络对该观测图像进行编码,得到当前时刻t该观测图像的表示;统计该当前时刻t该观测图像的表示、t时刻到t+k‑1时刻策略所采取的动作序列和第t+k时刻该观测图像的表示,三者之间的互信息作为可控因素的度量;基于该度量构建损失函数,以最大化该度量,基于该度量最大时对应的时刻t该观测图像的表示,执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。本发明通过捕捉环境中的可控因素,能有效过滤其他可预测的噪声,因此在复杂环境上具备更好的鲁棒性。

    基于神经网络的智能编程语言程序翻译方法系统

    公开(公告)号:CN115373691A

    公开(公告)日:2022-11-22

    申请号:CN202210850684.9

    申请日:2022-07-19

    Inventor: 郭崎 文渊博

    Abstract: 本发明提出一种基于神经网络的智能编程语言程序翻译方法和系统,包括:构建用于将源语言程序翻译为目标语言程序的正向模型,以及将目标语言程序为源语言程序的反向模型;根据源语言程序库和目标语言程序库,通过反向翻译训练该正向模型和该反向模型,得到正翻译模型和反翻译模型;将待翻译的源语言程序输入该正翻译模型,将得到的多个候选结果输入重排序模型,得到各候选结果的分数,选择分数最高的候选结果作为该源语言程序的翻译结果。

Patent Agency Ranking