-
公开(公告)号:CN117632838A
公开(公告)日:2024-03-01
申请号:CN202311611140.8
申请日:2023-11-29
Applicant: 之江实验室
IPC: G06F15/163 , G06N3/063
Abstract: 本发明公开了一种面向芯粒的主协处理器协作计算模拟器设计方法和装置,方法包括:构建由主协处理器协作计算的模拟器,主处理器为乱序执行CPU,协处理器包含功能模拟模块和性能模拟模块,主协处理器用RoCC交互接口连接;获取芯粒物理架构信息对模拟器进行设置;将神经网络编译为包含协处理器指令集的可执行文件;主处理器接收可执行文件,通过协处理器写指令构造消息发送给协处理器;协处理器根据消息类型进行处理并发送计算完成消息至主处理器;主处理器接收消息后通过协处理器读指令告知程序继续执行,最终获得神经网络的模拟运行结果和性能评估结果。本发明方法能够有效指导芯粒设计,降低芯粒设计过程中的经济开销和时间开销。
-
公开(公告)号:CN116523045B
公开(公告)日:2023-11-07
申请号:CN202310235465.4
申请日:2023-03-13
Applicant: 之江实验室
Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。
-
公开(公告)号:CN115829017B
公开(公告)日:2023-05-23
申请号:CN202310156339.X
申请日:2023-02-20
Applicant: 之江实验室
Abstract: 本说明书公开了一种基于芯粒的数据处理的方法、装置、介质及设备。首先,获取芯粒阵列的阵列尺寸以及神经网络模型对应的有向无环图。其次,根据芯粒阵列的阵列尺寸,构建各类算子的划分策略集合以及芯粒分配策略集合。而后,根据神经网络模型中的各算子在有向无环图中的深度,确定各算子所要加入的调度搜索模块。然后,针对每个调度搜索模块,根据各类算子的划分策略集合以及芯粒分配策略集合,确定满足预设条件的各策略组合,并计算该调度搜索模块中对应的各策略组合所需的运算开销,确定目标策略组合。最后,根据各调度搜索模块对应的目标策略组合,执行神经网络模型的运算任务。本方法可以合理的分配芯粒资源,提高芯粒资源的资源利用率。
-
公开(公告)号:CN115860081A
公开(公告)日:2023-03-28
申请号:CN202310179898.2
申请日:2023-03-01
Applicant: 之江实验室
Abstract: 本发明涉及一种芯粒算法调度方法,包括:获取待调度的神经网络算法计算图;获取芯粒的拓扑结构,并基于拓扑结构生成芯粒资源列表;对神经网络算法计算图进行图优化;对计算图划分并行组;对计算图进行活跃性分析;生成计算图中的每个算子的策略和对应的开销;生成整数线性规划的优化变量;设定整数线性规划的求解目标;设定整数线性规划的约束条件;求解整数线性规划问题;将求解整数线性规划问题得到的解作为计算图在芯粒上的调度方法。与现有技术相比,本发明基于整数线性规划技术,将算法调度空间搜索问题转换成整数线性规划求解问题,通过设置多种求解约束缩小策略探索空间,能够在很短的时间内得到神经网络算法在芯粒上最优的调度方案。
-
公开(公告)号:CN115829017A
公开(公告)日:2023-03-21
申请号:CN202310156339.X
申请日:2023-02-20
Applicant: 之江实验室
Abstract: 本说明书公开了一种基于芯粒的数据处理的方法、装置、介质及设备。首先,获取芯粒阵列的阵列尺寸以及神经网络模型对应的有向无环图。其次,根据芯粒阵列的阵列尺寸,构建各类算子的划分策略集合以及芯粒分配策略集合。而后,根据神经网络模型中的各算子在有向无环图中的深度,确定各算子所要加入的调度搜索模块。然后,针对每个调度搜索模块,根据各类算子的划分策略集合以及芯粒分配策略集合,确定满足预设条件的各策略组合,并计算该调度搜索模块中对应的各策略组合所需的运算开销,确定目标策略组合。最后,根据各调度搜索模块对应的目标策略组合,执行神经网络模型的运算任务。本方法可以合理的分配芯粒资源,提高芯粒资源的资源利用率。
-
公开(公告)号:CN115409174A
公开(公告)日:2022-11-29
申请号:CN202211354686.5
申请日:2022-11-01
Applicant: 之江实验室
Abstract: 本发明公开一种基于DRAM存内计算的碱基序列过滤方法与装置,该方法为:步骤一,根据DRAM的存储阵列的列宽和所要筛选目标碱基序列的起点地址,筛选出目标碱基序列后进行重新整理组合;步骤二,对重新整理组合后的目标碱基序列分别进行碱基为A腺嘌呤、G鸟嘌呤、C胞嘧啶、T胸腺嘧啶的标记并获取到对应碱基的标记行;步骤三,对标记行数据进行移位后统计标记行中位置值为1的个数,获得对应碱基的统计结果;步骤四,利用参考碱基序列的统计结果与所述目标碱基序列的统计结果进行对比,过滤所筛选的目标碱基序列。本发明将位置匹配筛选放置在内存子阵列中进行,减少了大量数据在cpu与内存之间的搬移,成倍提升了计算效率,降低了功耗。
-
公开(公告)号:CN115062771A
公开(公告)日:2022-09-16
申请号:CN202210981014.0
申请日:2022-08-16
Applicant: 之江实验室
Abstract: 本发明公开了一种分布式机器学习梯度汇聚方法、装置及模型训练方法,利用智能交换机进行计算节点梯度汇聚任务调度和模型训练。智能交换机不仅包含正常的网络交换功能,还能对梯度数据包进行解析,抽取包内数据并进行计算,并将结果重新组包发送给相关计算服务器,提供更为高效的数据交换服务。智能交换机将多台计算服务器连接起来组成训练网络,共同完成神经网络模型训练任务。本发明实现分布式机器学习训练,可优化梯度汇聚时间,减少梯度交换流量,加速大模型训练。
-
公开(公告)号:CN112804297B
公开(公告)日:2022-08-19
申请号:CN202011599244.8
申请日:2020-12-30
Applicant: 之江实验室
IPC: H04L67/1097 , H04L67/1074
Abstract: 本发明公开了一种可组装的分布式计算和存储系统及其构造方法,包括:一个以上域服务器,用于计算服务或存储服务;网络交换单元,负责将域服务器连接形成分布式计算和存储系统;域服务器包括:对象处理单元,采用多核构造处理器线程组,负责域服务器内网络连接,并通过高级语言编程提供管理控制和数据处理;计算单元,提供计算能力;内存单元,用于动态随机存储器;持久化内存单元,用于非易失内存;存储单元,提供持久化存储;多个计算单元、多个内存单元、多个非易失内存单元、多个存储单元,分别通过网络交换单元连接形成计算池、内存池、非易失内存池、存储池;一个或多个域服务器通过网络交换单元连接形成分布式计算和存储系统。
-
公开(公告)号:CN112862111A
公开(公告)日:2021-05-28
申请号:CN202110450988.1
申请日:2021-04-26
IPC: G06N20/00
Abstract: 本发明涉及分布式计算系统领域,具体涉及一种加速分布式机器学习梯度汇聚的方法和装置,该装置包括:包括梯度汇聚器和与梯度汇聚器连接的工作节点,所述工作节点用于提供梯度数据至梯度汇聚器和接收梯度汇聚器的返还数据;所述梯度汇聚器,包括:输入接口和输入队列模块、接收仲裁模块、解析查找模块、输出队列模块、聚合模块、存储器、输出接口模块和配置接口模块,其中的聚合模块包括:控制模块、解析模块、梯度数据块信息表、梯度数据块缓存器、计算模块和网络组包输出模块。本发明支持大型机器学习模型的训练,存储器可以存储大量梯度数据,同时所需要的缓存空间可以很小,降低了系统缓存的要求,提高了系统整体性能。
-
公开(公告)号:CN112598129A
公开(公告)日:2021-04-02
申请号:CN202110236303.3
申请日:2021-03-03
IPC: G06N3/08
Abstract: 本发明提出了一种基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架,该剪枝和映射框架包括DDPG代理器和ReRAM神经网络加速器;所述DDPG代理器由行为决策模块Actor和评判模块Critic组成,其中,行为决策模块Actor用于对神经网络做出剪枝决策;ReRAM神经网络加速器用于映射行为决策模块Actor产生的剪枝决策下形成的模型,并将此剪枝决策下的模型映射的性能参数作为信号反馈给评判模块Critic;所述性能参数包括模拟器的能耗、延迟和模型准确率;评判模块Critic根据反馈的性能参数更新奖励函数值,并指导行为决策模块Actor下一阶段的剪枝决策;本发明方法利用强化学习DDPG代理来做出与硬件和用户需求最匹配、最高效的剪枝方案,在保证准确率的同时,提升了硬件上延迟性能和能耗性能。
-
-
-
-
-
-
-
-
-