-
公开(公告)号:CN117422957A
公开(公告)日:2024-01-19
申请号:CN202311203914.3
申请日:2023-09-18
Applicant: 中国科学院计算技术研究所
IPC: G06V10/776 , G06V10/82 , G06N3/0464 , G06N3/0495 , G06N3/08
Abstract: 本发明实施例提供了一种深度学习模型执行时间的评估方法,该方法包括:取基于深度学习处理器训练的深度学习模型;将深度学习模型进行量化以及将量化后的深度学习模型转换为计算图;获取计算图中每个算子的参数信息;基于计算图中每个算子的参数信息,利用每种算子对应的代价评估函数得到计算图中每个算子的执行时间;计算每个算子的输入数据与输出数据的迁移时间,以及计算每个算子的阻塞等待时间;基于计算图中每个算子的执行时间、每个算子的阻塞等待时间以及每个算子的输入数据与输出数据的迁移时间,评估深度学习模型的执行时间。该方法是针对深度学习处理器设计的,对于深度学习模型执行时间的评估粒度高、效率高以及不需要依赖工程师经验。
-
公开(公告)号:CN119884572A
公开(公告)日:2025-04-25
申请号:CN202411928085.X
申请日:2024-12-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于哈希的稀疏矩阵向量乘法优化方法,其特征在于,包括:依据神经网络硬件加速器的硬件结构,对待矩阵向量乘的稀疏矩阵进行划分,得到多个稀疏矩阵块,对该多个稀疏矩阵块进行线性哈希映射,得到待划分矩阵;根据该待划分矩阵的规模及该硬件结构,划分该待划分矩阵,得到多个子矩阵块,并划分该子矩阵块内的并行执行部分和竞争执行部分;神经网络硬件加速器通过对该子矩阵块间竞争执行计算任务,块内并行执行计算任务,得到多个子矩阵计算结果,并通过查找哈希表还原写入的原本顺序;根据该原本顺序合并该多个子矩阵计算结果,得到矩阵向量乘的最终结果。
-
公开(公告)号:CN119201130A
公开(公告)日:2024-12-27
申请号:CN202411282501.3
申请日:2024-09-13
Applicant: 中国科学院计算技术研究所
IPC: G06F8/41 , G06N3/10 , G06F18/2431 , G06F18/243 , G06N5/01 , G06N20/20
Abstract: 本发明提供了一种针对动态形状算子的编译优化方法,包括:获取待编译的基于神经网络的模型,确定其内的动态形状算子在当前执行时的输入形状;将输入形状输入多分类器,得到该输入形状对应的预测优化方案,其中,所述多分类器是利用针对该模型收集的训练集预先训练得到的,训练集中包括基于GPU的硬件信息针对模型的所有动态形状算子的多种输入形式进行模拟优化后收集的样本,每个样本包括一种动态形状算子对应的一种确定的输入形状及根据该输入形状在GPU的CUDA核心和Tensor核心上的优化方案的实际运行情况择优选出的最终优化方案;根据预测优化方案对模型中对应的动态形状算子进行编译。
-
-