自动化注意力稀疏化方法、装置、电子设备及存储介质

    公开(公告)号:CN118036678B

    公开(公告)日:2024-07-30

    申请号:CN202410432980.6

    申请日:2024-04-11

    申请人: 清华大学

    摘要: 本发明涉及一种自动化注意力稀疏化方法、装置、电子设备及存储介质,其中,方法包括:获取经训练的机器学习模型的多个注意力头的注意力矩阵,机器学习模型用于执行计算机视觉任务或自然语言处理任务;利用数据样本集评估多个注意力头的注意力矩阵,得到每个注意力矩阵的效用矩阵;根据每个注意力头的注意力矩阵的多个稠密度和效用矩阵生成对应注意力头的与多个稠密度中的每个稠密度对应的候选稀疏注意力掩膜;评估每个注意力头的与多个稠密度中的每个稠密度对应的候选稀疏注意力掩膜的质量分数;根据质量分数确定每个注意力头的稀疏注意力掩膜的最优稠密度,将最优稠密度的候选稀疏注意力掩膜确定为对应注意力头的稀疏注意力掩膜。

    大语言模型解码阶段的数据调度方法和装置

    公开(公告)号:CN118093143B

    公开(公告)日:2024-07-02

    申请号:CN202410437753.2

    申请日:2024-04-12

    申请人: 清华大学

    IPC分类号: G06F9/48 G06F9/50

    摘要: 本公开涉及人工智能领域,尤其涉及一种大语言模型解码阶段的数据调度方法和装置,确定大语言模型解码阶段的至少一个数据操作,并在加速器片上分配片上缓存区域。对至少一个数据操作进行操作融合得到包括N个按顺序执行的数据操作的操作组合,在解码阶段获取输入激活向量以按顺序执行操作组合中的数据操作。其中,在执行第一个到第N‑1个数据操作时,完成每一次操作步骤后得到对应的中间激活向量,并通过片上缓存区域存储所述中间激活向量。在执行第N个数据操作时得到对应的输出激活向量。本公开可以通过在加速器片上开辟片上缓存区域存储解码阶段的中间参数,避免多次进行片外数据存储,有效利用计算与带宽资源提高加速器的推理效率。

    一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法

    公开(公告)号:CN113360259B

    公开(公告)日:2022-10-11

    申请号:CN202110594180.0

    申请日:2021-05-28

    申请人: 清华大学

    IPC分类号: G06F9/48 G06F9/50 G06F9/455

    摘要: 一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法,包括:面向多节点FPGA现场可编程门阵列的两阶段静态‑动态编译器,具体包括:基于切分的静态编译器生成沿宽度切分或沿输出通道切分的细粒度指令包;通过考虑多节点FPGA通信代价的延时仿真器,根据细粒度指令包生成延时查找表;将细粒度指令包和延时查找表存储在动态编译器中;通过动态编译器,根据预先生成的细粒度指令包和延时查找表生成指令文件;将指令文件发送到虚拟化核心分配器中进行在线部署,同时,通过监控器记录指令运行时的延时结果,将延时结果返回至多任务调度器的虚拟核分配器并更新性能模型。解决现有技术中同类编译器性能模型编译效率低下和多任务调度算法性能差的技术问题。

    大语言模型解码阶段的数据调度方法和装置

    公开(公告)号:CN118093143A

    公开(公告)日:2024-05-28

    申请号:CN202410437753.2

    申请日:2024-04-12

    申请人: 清华大学

    IPC分类号: G06F9/48 G06F9/50

    摘要: 本公开涉及人工智能领域,尤其涉及一种大语言模型解码阶段的数据调度方法和装置,确定大语言模型解码阶段的至少一个数据操作,并在加速器片上分配片上缓存区域。对至少一个数据操作进行操作融合得到包括N个按顺序执行的数据操作的操作组合,在解码阶段获取输入激活向量以按顺序执行操作组合中的数据操作。其中,在执行第一个到第N‑1个数据操作时,完成每一次操作步骤后得到对应的中间激活向量,并通过片上缓存区域存储所述中间激活向量。在执行第N个数据操作时得到对应的输出激活向量。本公开可以通过在加速器片上开辟片上缓存区域存储解码阶段的中间参数,避免多次进行片外数据存储,有效利用计算与带宽资源提高加速器的推理效率。

    自动化注意力稀疏化方法、装置、电子设备及存储介质

    公开(公告)号:CN118036678A

    公开(公告)日:2024-05-14

    申请号:CN202410432980.6

    申请日:2024-04-11

    申请人: 清华大学

    摘要: 本发明涉及一种自动化注意力稀疏化方法、装置、电子设备及存储介质,其中,方法包括:获取经训练的机器学习模型的多个注意力头的注意力矩阵,机器学习模型用于执行计算机视觉任务或自然语言处理任务;利用数据样本集评估多个注意力头的注意力矩阵,得到每个注意力矩阵的效用矩阵;根据每个注意力头的注意力矩阵的多个稠密度和效用矩阵生成对应注意力头的与多个稠密度中的每个稠密度对应的候选稀疏注意力掩膜;评估每个注意力头的与多个稠密度中的每个稠密度对应的候选稀疏注意力掩膜的质量分数;根据质量分数确定每个注意力头的稀疏注意力掩膜的最优稠密度,将最优稠密度的候选稀疏注意力掩膜确定为对应注意力头的稀疏注意力掩膜。

    一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法

    公开(公告)号:CN113360259A

    公开(公告)日:2021-09-07

    申请号:CN202110594180.0

    申请日:2021-05-28

    申请人: 清华大学

    IPC分类号: G06F9/48 G06F9/50 G06F9/455

    摘要: 一种应用于面向云端深度学习推理的分布式FPGA多任务调度算法,包括:面向多节点FPGA现场可编程门阵列的两阶段静态‑动态编译器,具体包括:基于切分的静态编译器生成沿宽度切分或沿输出通道切分的细粒度指令包;通过考虑多节点FPGA通信代价的延时仿真器,根据细粒度指令包生成延时查找表;将细粒度指令包和延时查找表存储在动态编译器中;通过动态编译器,根据预先生成的细粒度指令包和延时查找表生成指令文件;将指令文件发送到虚拟化核心分配器中进行在线部署,同时,通过监控器记录指令运行时的延时结果,将延时结果返回至多任务调度器的虚拟核分配器并更新性能模型。解决现有技术中同类编译器性能模型编译效率低下和多任务调度算法性能差的技术问题。

    指令压缩方法、装置、加速器及存储介质

    公开(公告)号:CN118034785B

    公开(公告)日:2024-06-11

    申请号:CN202410432921.9

    申请日:2024-04-11

    申请人: 清华大学

    摘要: 本发明涉及大语言模型处理技术领域,特别涉及一种指令压缩方法、装置、加速器及存储介质,其中,方法包括:根据大语言模型加速器的当前指令集中的待压缩指令的并行度确定当前指令集中的待压缩指令的指令复用比例,待压缩指令至少用于执行大语言模型的处理阶段中的一种计算;基于待压缩指令的指令复用比例生成并存储多种指令,其中每种指令被配置为实现支持不同长度范围的输入令牌的待压缩指令的计算。由此,解决了相关技术中在线编译速度较慢导致无法满足实时性的需求,而线下编译需要大量存储空间,导致成本较高等问题。

    指令压缩方法、装置、加速器及存储介质

    公开(公告)号:CN118034785A

    公开(公告)日:2024-05-14

    申请号:CN202410432921.9

    申请日:2024-04-11

    申请人: 清华大学

    摘要: 本发明涉及大语言模型处理技术领域,特别涉及一种指令压缩方法、装置、加速器及存储介质,其中,方法包括:根据大语言模型加速器的当前指令集中的待压缩指令的并行度确定当前指令集中的待压缩指令的指令复用比例,待压缩指令至少用于执行大语言模型的处理阶段中的一种计算;基于待压缩指令的指令复用比例生成并存储多种指令,其中每种指令被配置为实现支持不同长度范围的输入令牌的待压缩指令的计算。由此,解决了相关技术中在线编译速度较慢导致无法满足实时性的需求,而线下编译需要大量存储空间,导致成本较高等问题。