-
公开(公告)号:CN112015673B
公开(公告)日:2021-03-16
申请号:CN202011137494.X
申请日:2020-10-22
IPC: G06F12/02
Abstract: 本发明涉及计算机内存计算领域,具体涉及一种基于混合存储的存内计算方法与装置,该方法包括:首先通过混合存储区将数据进行混合存储,然后利用数据转存区通过字线驱动器和控制器对某一指定行的数据进行移位操作,最后基于混合存储和移位操作进行数据的乘法计算。本发明结合非易失存储与内存计算,一方面计算数据以纳秒级的速度从非易失器件中获得,特别是对于深度神经网络推理这种场景,可将模型参数事先存放于非易失存储区,计算时能减少了数据访问的时间,提高了系统性能;另一方面通过改进电路操作流程,减少了不必要的数据搬移时间,使得移位时间也能缩短至纳秒级别,提升了对于乘法计算这种有大量移位操作的计算效率,提高了系统性能。
-
公开(公告)号:CN112418422A
公开(公告)日:2021-02-26
申请号:CN202011307776.X
申请日:2020-11-20
IPC: G06N3/08
Abstract: 本发明公开了一种基于人脑记忆机制的深度神经网络训练数据采样方法,包括如下步骤:S1,在初始训练周期,设置下一轮要训练的序列为整个训练集;S2,将训练序列中包含的数据根据批大小打包为多个批,放入神经网络进行训练,并获得样本的训练损失值;S3,根据损失值将样本序列划分为困难、中间、简单三种类型;S4,整个训练序列的样本都增加一个基本时钟,中间和简单的样本需要根据倒计时等待函数分别计算样本的额外增加的时钟数;S5,整个训练集的样本都减少一个时钟数,将时钟数为0的样本放入下一轮将要训练的序列之中;S6,重复步骤2‑5,直到神经网络收敛或者训练周期数结束。
-
公开(公告)号:CN112395213A
公开(公告)日:2021-02-23
申请号:CN202011296272.2
申请日:2020-11-18
IPC: G06F12/02
Abstract: 本发明公开了一种基于内存面向热点数据的ACEH索引结构及方法,结构包括:目录项、段和数据桶;方法包括:目录项通过全局深度G进行段索引,一个段对应一组数据桶,段通过局部深度L进行数据桶索引,L=G‑log2k,k表示指向该数据桶的指针数,所述数据桶索引采用Adjusted‑Cuckoo算法定位哈希键插入的数据桶,Adjusted‑Cuckoo算法包含两个哈希函数,产生两个可插入的数据桶,然后选择空余的数据桶进行插入,Adjusted‑Cuckoo算法确定一个数据桶,第二个数据桶则直接确定为当前数据桶的下一个数据桶,操作方法包括如下步骤:步骤一,插入操作;步骤二,刷新操作;步骤三,分裂操作;步骤四,删除操作。
-
公开(公告)号:CN119847767A
公开(公告)日:2025-04-18
申请号:CN202510322959.5
申请日:2025-03-19
Applicant: 浙江大学
IPC: G06F9/50 , G06N3/0455 , G06N3/0985
Abstract: 本发明公开了一种面向流水线并行训练的重计算感知模型拆分方法及系统,属于计算机科学人工智能领域。本发明方法具体为:使用dijkstra算法以及两层二分搜索,计算重计算感知模型拆分下流水线microbatch的前向传播和反向传播时间之和最小值;并使用搜索过程中dijkstra算法得到的中间结果计算并输出一种重计算感知的近似最优的模型拆分策略。本发明利用Trasformer大模型的模型特征、流水线并行模式的特征,设计了模型拆分方法和系统,对模型非均匀拆分到流水线各个阶段,保证开启重计算时各流水线阶段计算负载均衡,从而提高了大模型流水线并行训练整体性能和集群设备的利用效率。
-
公开(公告)号:CN114546662B
公开(公告)日:2025-04-01
申请号:CN202210194862.7
申请日:2022-03-01
Applicant: 浙江大学
Abstract: 本发明提供了一种基于日志结构的持久性内存的内存块元数据管理方法及装置,本发明将持久性内存的内存块元数据存入DRAM中,并将内存块元数据的核心数据根据内存块的状态更新以日志条目的形式追加写入到持久性内存的日志文件中;所述日志文件中划分成多个日志组存储日志条目。同时在DRAM中保存日志组元数据,所述日志组元数据为指明日志组分配情况的位图bitmap,通过红黑树对已分配的日志组元数据进行管理,并将被释放的日志组元数据通过链表进行管理。本发明通过修改元数据的布局模式,使得持久性内存元数据的分布更具有局部性,减少小规模数据的随机写入,提高持久性内存的分配性能。
-
公开(公告)号:CN118821857A
公开(公告)日:2024-10-22
申请号:CN202410142568.0
申请日:2024-02-01
Applicant: 浙江大学
IPC: G06N3/0464 , G06N3/096
Abstract: 本发明提供了一种基于模型迁移的分布式图神经网络训练方法与系统,在训练过程的每个迭代中,每个图神经网络模型依据对应的一个批次的训练顶点重新分配后所在位置依次迁移至对应服务器中,并利用对应服务器存储的微图的顶点特征进行训练并累积梯度,不在对应服务器存储的微图的顶点特征从远程获取;当所有图神经网络模型完成最后一个微图的训练时,所有图神经网络模型之间将累积的梯度进行同步,最后更新模型参数;本发明方法在当有特征向量数据在远程时,不把特征数据从远程传输到本地,而是把模型传输到目的服务器上。在不影响训练精度的情况下,通过引入模型迁移的方法消除了大部分的特征向量传输,从而显著缩短训练时间,提高训练效率。
-
公开(公告)号:CN117521749A
公开(公告)日:2024-02-06
申请号:CN202311355813.8
申请日:2023-10-19
Applicant: 浙江大学
Abstract: 本发明提供了一种基于忆阻器的推荐系统加速器的嵌入查询推理方法,对于输入的一个批次的样本数据batch0,基于嵌入表,分别分析一个批次的样本数据中对应索引元素的冗余现象,去除重复的索引元素,得到新的无冗余样本数据batch1;并建立batch0和batch1之间的映射;基于无冗余样本数据batch1访问存储器进行嵌入表查询和推理,推理完成后,根据原始的样本数据batch0和无冗余样本数据batch1之间的映射,对推理结果进行复制填充至原始的样本数据batch0对应大小,获得最终的原始的样本数据batch0对应的推理结果。本发明通过对输入的样本数据进行分析,去除其中重复的查询索引,构建新的无冗余数据来进行推理,减少了冗余的忆阻器访问,从而提升系统整体的推理性能。
-
公开(公告)号:CN115310605A
公开(公告)日:2022-11-08
申请号:CN202210876872.9
申请日:2022-07-25
Applicant: 浙江大学
Abstract: 本发明提供了一种基于非易失性内存的推荐系统网络高效训练方法及系统,本发明高效利用了非易失性内存的带宽、延迟特性以及非易失特性,最优化推荐系统网络的训练性能。该方法具体为:面向动态内存(DRAM)、非易失性内存(NVM)混合存储架构,利用推荐系统网络中Embedding数据的冷热特性,将数据进行智能摆放,增加数据的访问效率,提高训练的性能;其次,利用非易失特性,设计新型训练模式以及检查点模式,利用双版本持久化技术与增量、并行优化技术,进一步提升系统性能,降低NVM寿命的损耗。
-
公开(公告)号:CN114881132A
公开(公告)日:2022-08-09
申请号:CN202210447197.8
申请日:2022-04-19
Applicant: 浙江大学
IPC: G06K9/62 , G06T1/20 , G06V10/774
Abstract: 本发明提供了一种面向异构内存设备的深度学习图片数据预处理方法及系统,本发明在深度学习模型训练过程中,基于上一轮次迭代训练时所有训练数据的损失重要性采样结果将所有训练数据划分成重要样本和不重要样本,其中,所述重要样本采用至少两种数据增强方法进行预处理,所述不重要样本采用一种数据增强方法进行预处理,作为下一轮次训练时模型的输入。本发明通过对重要数据采用更加复杂的数据增强手段,而不重要数据则采用较为简单的数据增强手段,大大缓解了CPU计算负担,在不损失模型训练精度的情况下加快了训练速度。
-
公开(公告)号:CN114510439A
公开(公告)日:2022-05-17
申请号:CN202210101732.4
申请日:2022-01-27
Applicant: 浙江大学
Abstract: 本发明提供了一种基于持久性内存的内存分配器元数据交替映射方法及系统,本发明通过对可分配内存区域元数据采用多个子位图进行存储,每个子位图的大小大于等于缓存行的大小,采用交替存放的方式将连续内存块的比特位依次存放到不同的子位图中,使内存分配器在分配连续内存块时,连续内存块的比特位会被映射到不同缓存行中。对线程私有缓存元数据采用多个子缓存进行存储,子缓存的数量等于子位图的数量,每个子缓存仅存储位于同一子位图的内存块的比特位,且所有子缓存具有访问顺序。通过修改元数据的布局模式,使得连续内存分配对bitmap的修改尽可能落在不同的缓存行内,从而避免缓存行重复刷新的问题,提高对持久性内存分配的性能。
-
-
-
-
-
-
-
-
-