支持高并发的大规模生成式语言模型快速推理方法及系统

    公开(公告)号:CN114385785B

    公开(公告)日:2024-12-17

    申请号:CN202111594472.0

    申请日:2021-12-23

    Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。

    深度学习平台的数据集缓存加速方法、系统、设备及介质

    公开(公告)号:CN116737363A

    公开(公告)日:2023-09-12

    申请号:CN202310519363.5

    申请日:2023-05-09

    Abstract: 本发明涉及人工智能,提供了一种深度学习平台的数据集缓存加速方法、系统、设备及介质,该方法包括:响应于任务指令,将远端存储的目标数据集映射至数据集抽象组件;基于数据集抽象组件对加速引擎组件进行绑定;根据目标数据集从所有处理节点中确定出用于执行训练任务的工作节点;根据缓存配置参数,对工作节点的缓存区域进行配置,并对缓存区域与加速引擎组件进行映射关系建立,形成逻辑存储,以使目标数据集通过加速引擎组件映射至缓存区域;将训练任务挂载至逻辑存储,以便于训练任务通过缓存区读取目标数据集。本发明实施例提供的数据集缓存加速方法能够解决计算应用程序与异构存储之间的兼容性问题,同时提升数据读取的速度。

    支持高并发的大规模生成式语言模型快速推理方法及系统

    公开(公告)号:CN114385785A

    公开(公告)日:2022-04-22

    申请号:CN202111594472.0

    申请日:2021-12-23

    Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。

Patent Agency Ranking