-
公开(公告)号:CN113360259A
公开(公告)日:2021-09-07
申请号:CN202110594180.0
申请日:2021-05-28
申请人: 清华大学
摘要: 一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法,包括:面向多节点FPGA现场可编程门阵列的两阶段静态‑动态编译器,具体包括:基于切分的静态编译器生成沿宽度切分或沿输出通道切分的细粒度指令包;通过考虑多节点FPGA通信代价的延时仿真器,根据细粒度指令包生成延时查找表;将细粒度指令包和延时查找表存储在动态编译器中;通过动态编译器,根据预先生成的细粒度指令包和延时查找表生成指令文件;将指令文件发送到虚拟化核心分配器中进行在线部署,同时,通过监控器记录指令运行时的延时结果,将延时结果返回至多任务调度器的虚拟核分配器并更新性能模型。解决现有技术中同类编译器性能模型编译效率低下和多任务调度算法性能差的技术问题。
-
公开(公告)号:CN117494771A
公开(公告)日:2024-02-02
申请号:CN202210867431.2
申请日:2022-07-22
申请人: OPPO广东移动通信有限公司 , 清华大学
摘要: 本申请实施例公开了一种神经网络加速器、数据处理方法、电子设备及存储介质,神经网络加速器包括:卷积处理阵列、地址生成器、数据传输器和数据存储器;数据传输器,与卷积处理阵列、地址生成器,以及数据存储器分别耦合;卷积处理阵列,用于对媒体数据进行卷积处理,生成特征图数据;地址生成器,用于针对特征图数据中待上采样的第一数据,生成多个存储地址,并将多个存储地址传输至数据传输器;多个存储地址对应于数据存储器的多个存储单元;数据传输器,用于向数据存储器中多个存储地址的相应各存储单元,分别传输第一数据进行存储,以实现针对第一数据的上采样处理。
-
公开(公告)号:CN116702837A
公开(公告)日:2023-09-05
申请号:CN202310537759.2
申请日:2023-05-12
IPC分类号: G06N3/0464 , G06N3/048 , G06N3/096 , G06N3/091 , G06N3/065 , G06F8/60 , G06V10/774 , G06V10/778 , G06V10/82 , G06V10/94
摘要: 本申请提供一种模型的部署方法,包括获取待部署的神经网络模型,该神经网络模型包括多个融合层,该融合层依次包括批正则化层、激活层和卷积层;将神经网络模型部署到存在读和/或写错误的计算设备上;将训练样本作为神经网络模型的输入,利用上一层卷积层的输出,校准当前层批正则化层的参数。本申请通过将融合层的融合顺序修改为批正则化层、激活层和卷积层,将卷积层和批正则化层进行解耦,可实现利用上一层卷积层的输出校准当前层批正则化层的均值和方差,大幅度消除计算设备的读写错误对其上部署的神经网络模型的推理结果的影响。
-
公开(公告)号:CN115293341A
公开(公告)日:2022-11-04
申请号:CN202210226668.2
申请日:2022-03-09
申请人: 清华大学
摘要: 本申请涉及软硬件联合设计技术领域,特别涉及一种面向存算一体架构的软硬件联合搜索方法、装置及设备,其中,方法包括:获取存算一体架构的多组设计参数和每组设计参数的所有可能取值,并对所有可能取值进行组合,生成软硬件联合设计空间;在搜索开始时,构造种群,并采用多轮迭代的方式对联合设计空间进行搜索,得到满足待优化目标的候选设计参数,基于候选设计参数对种群进行更新,并利用种群中每个候选设计参数的优先级裁剪联合设计空间,且在裁剪后的联合设计空间中,搜索满足待优化目标的目标设计参数,并基于目标设计参数生成目标网络模型和目标硬件架构。由此,能够实现对于网络模型和硬件架构的联合高效设计,避免了繁琐的手工优化。
-
公开(公告)号:CN113360259B
公开(公告)日:2022-10-11
申请号:CN202110594180.0
申请日:2021-05-28
申请人: 清华大学
摘要: 一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法,包括:面向多节点FPGA现场可编程门阵列的两阶段静态‑动态编译器,具体包括:基于切分的静态编译器生成沿宽度切分或沿输出通道切分的细粒度指令包;通过考虑多节点FPGA通信代价的延时仿真器,根据细粒度指令包生成延时查找表;将细粒度指令包和延时查找表存储在动态编译器中;通过动态编译器,根据预先生成的细粒度指令包和延时查找表生成指令文件;将指令文件发送到虚拟化核心分配器中进行在线部署,同时,通过监控器记录指令运行时的延时结果,将延时结果返回至多任务调度器的虚拟核分配器并更新性能模型。解决现有技术中同类编译器性能模型编译效率低下和多任务调度算法性能差的技术问题。
-
-
-
-