-
公开(公告)号:CN119718330A
公开(公告)日:2025-03-28
申请号:CN202411799494.4
申请日:2024-12-09
Applicant: 上海富瀚微电子股份有限公司
Abstract: 本发明涉及一种AI编译器模型编译多级性能评估方法及系统,方法包括:利用AI编译器为每个算子生成若干候选解,每个候选解具有不同的中间表达;对所有候选解对应的中间表达进行时间评估,挑选出其中最优的M个候选解,其中,M为正整数;将M个候选解对应的中间表达进行编译生成对应的汇编指令并进行时间评估,挑选出其中最优的N个候选解,其中,N为正整数且小于M;将N个候选解编译生成二进制指令并导入芯片进行实测,根据实测结果获取最优的运行时间及对应的运行指令。通过逐级挑选的部分最优解传给下一级进行更精确评估,相比于现有时间评估方法,准确度更高,不仅能大幅减少了编译时间,还能有效解决多后端实现的选择问题。
-
公开(公告)号:CN117689010A
公开(公告)日:2024-03-12
申请号:CN202311728124.7
申请日:2023-12-14
Applicant: 上海富瀚微电子股份有限公司
IPC: G06N3/10 , G06N3/0464 , G06N3/048
Abstract: 本发明涉及AI编译器技术领域,尤其涉及一种算子深度融合方法、系统及可读存储介质,方法包括:初始化网络计算图为原始网络计算图;将原始网络计算图中的张量运算算子与其前后的向量运算算子和/或标量运算算子进行融合,更新得到第一网络计算图;搜索出第一网络计算图中的所有直链,求解每条直链的最优融合方案,更新得到第二网络计算图;从第二网络计算图的输出开始往前搜索分支,求解出包括聚合点或分叉点在内的多分支最优融合方案,更新得到第三网络计算图;将整个第三网络计算图当作直链求解最优融合方案,更新得到最终网络计算图。本发明在有效降低融合复杂性的同时能充分发挥硬件性能,解决了基于DSA芯片AI编译器的算子融合问题。
-
公开(公告)号:CN119668861A
公开(公告)日:2025-03-21
申请号:CN202411751216.1
申请日:2024-12-02
Applicant: 上海富瀚微电子股份有限公司
Abstract: 本发明涉及一种基于神经网络推理的内存分配优化方法及系统,方法包括:遍历神经网络的所有节点,记录各个节点的输入及输出,并确定要分配的内存空间;根据各节点的输入和输出之间的连接复用关系构建内存分配序列列表;根据内存分配序列列表为各个节点分配内存空间,并对已分配的内存空间基于最小移动原则进行地址重排以优化内存分配,具体包括:在为节点分配内存时,扫描空闲空间列表,当找到满足分配需求且大小最接近的空闲空间时直接分配;当没有找到满足分配需求的空闲空间时,从大小最接近的空闲空间开始分配内存,对生命周期存在交叠的节点进行地址重排,并对后面的空闲空间进行压缩。本发明减少了内存碎片的产生,提高了内存复用效率。
-
-