任务处理方法、系统和相关装置
    1.
    发明公开

    公开(公告)号:CN119167101A

    公开(公告)日:2024-12-20

    申请号:CN202411177288.X

    申请日:2024-08-26

    Abstract: 本申请公开了一种任务处理方法、系统和相关装置,该方法包括:获取由至少一个目标任务触发的任务处理指令;将所述任务处理指令输入至智能分析模型,得到所述智能分析模型输出的与每个目标任务匹配的处理内容;其中,所述智能分析模型包括模型基础网络以及与所述模型基础网络并列的至少一个目标调节子网络,所述模型基础网络与调度模块耦接,所述调度模块用于从多个训练后的候选参数集中选取与目标任务匹配的目标参数集以构建所述目标调节子网络。通过上述方式,本申请能够提高任务处理的效率。

    数据处理方法、装置、相关设备及计算机程序产品

    公开(公告)号:CN118863066A

    公开(公告)日:2024-10-29

    申请号:CN202411085202.0

    申请日:2024-08-08

    Abstract: 本申请公开了一种数据处理方法、装置、相关设备及计算机程序产品,方法包括:对于第一存储空间中待处理的目标数据,若目标数据的总长度大于基准长度且无法被基准长度整除,则从目标数据中确定多份数据,每份数据的长度为基准长度的整数倍,且多份数据的并集等于目标数据;将每份数据分别拷贝到第二存储空间;在对第二存储空间中的数据执行完推理计算后,将第二存储空间中每份计算后的数据,按照其在第一存储空间中的原始位置,以覆盖的形式拷贝至第一存储空间。本申请方案能够解决当前芯片在面对算子非对齐shape场景时,在不同存储空间之间拷贝数据时容易出现数据踩踏,计算结果出错的问题,保证整体计算结果的准确性。

    问答交互方法及相关装置、电子设备和存储介质

    公开(公告)号:CN118484525B

    公开(公告)日:2024-10-29

    申请号:CN202410947840.2

    申请日:2024-07-16

    Abstract: 本申请公开了一种问答交互方法及相关装置、电子设备和存储介质,其中,问答交互方法包括:获取用户在当前轮次输入的第一语句;调用GPU计算资源处理第一语句,得到当前轮次中当前注意力特征,将外部存储空间中历史轮次的历史注意力特征,调取至GPU显存空间;调用GPU计算资源处理当前注意力特征和历史注意力特征,得到第二语句;按照生成时间由新到旧的顺序调取GPU显存空间中键特征和值特征,并写回至外部存储空间,以用于当前轮次的下一轮次。上述方案,能够提升计算资源的利用率和吐字效率,并尽可能地降低首响延迟。此外,通过异构缓存,能够大大缓解保存历史注意力特征对于GPU显存空间的需求压力,特别是在长文本的交互场景下。

    问答交互方法及相关装置、电子设备和存储介质

    公开(公告)号:CN118484525A

    公开(公告)日:2024-08-13

    申请号:CN202410947840.2

    申请日:2024-07-16

    Abstract: 本申请公开了一种问答交互方法及相关装置、电子设备和存储介质,其中,问答交互方法包括:获取用户在当前轮次输入的第一语句;调用GPU计算资源处理第一语句,得到当前轮次中当前注意力特征,将外部存储空间中历史轮次的历史注意力特征,调取至GPU显存空间;调用GPU计算资源处理当前注意力特征和历史注意力特征,得到第二语句;按照生成时间由新到旧的顺序调取GPU显存空间中键特征和值特征,并写回至外部存储空间,以用于当前轮次的下一轮次。上述方案,能够提升计算资源的利用率和吐字效率,并尽可能地降低首响延迟。此外,通过异构缓存,能够大大缓解保存历史注意力特征对于GPU显存空间的需求压力,特别是在长文本的交互场景下。

    任务调度方法、调度模块、推理节点和协同作业系统

    公开(公告)号:CN113608852B

    公开(公告)日:2024-07-16

    申请号:CN202110888396.8

    申请日:2021-08-03

    Abstract: 本发明提供一种任务调度方法、调度模块、推理节点和协同作业系统,其中方法应用于调度模块,该方法包括:获取各推理节点的待处理信息,各推理节点协同作业,待处理信息包括对应推理节点下的待处理任务数量和/或各待处理任务的任务类型;基于各推理节点的待处理信息,以及各推理节点在协同作业中的重要性,从各推理节点中选取目标节点,所有目标节点进行任务处理所需的计算资源总和小于等于额定计算量;向目标节点发送任务处理指令,以触发目标节点进行任务处理,满足了对整体吞吐量和任务响应时间的要求,解决了单一神经网络的调度推理方案无法对多个神经网络协同工作的任务进行调度推理的问题,实现了复杂场景下的调度推理。

    一种神经网络模型的推理方法、装置、设备及存储介质

    公开(公告)号:CN116629308A

    公开(公告)日:2023-08-22

    申请号:CN202310908675.5

    申请日:2023-07-24

    Abstract: 本发明提供了一种神经网络模型的推理方法、装置、设备及存储介质,方法包括:预先将神经网络模型的计算图切分为N个有序的子图,并构建N个串行的处理模块,第i个处理模块包括在第i个GPU上创建的用于执行第i个子图的运算的推理引擎以及用于为该推理引擎调度数据的调度模块,i从1到N;当接收到任务数据时,基于第1个推理引擎对应的调度模块将任务数据分批提供给第1个推理引擎处理,每当第1个推理引擎处理完一批数据,向其提供一批新的数据;基于第j+1个推理引擎对应的调度模块将第j个推理引擎的输出数据提供给第j+1个推理引擎处理,j从1到N‑1。本发明具有较高的推理效率和较大的数据吞吐量,且适用于大模型。

    模型调度处理方法、装置、设备及存储介质

    公开(公告)号:CN113935472A

    公开(公告)日:2022-01-14

    申请号:CN202111299696.9

    申请日:2021-11-04

    Abstract: 本申请提出一种模型调度处理方法、装置、设备及存储介质,该方法包括:根据各个网络模型执行单路串行任务时的运行日志数据,以及执行多路并行任务时的运行日志数据,确定各个网络模型的性能参数;根据各个网络模型的性能参数,以及各个网络模型执行目标任务时的运行日志数据,确定对各个网络模型的调度策略。上述方案通过分析网络模型的性能参数,以及各个网络模型在执行目标任务时的运行日志数据,确定对各个网络模型的调度策略,实现了对模型调度的分析及调整,有利于提高多网络模型协同工作应用的性能。

    任务调度方法、调度模块、推理节点和协同作业系统

    公开(公告)号:CN113608852A

    公开(公告)日:2021-11-05

    申请号:CN202110888396.8

    申请日:2021-08-03

    Abstract: 本发明提供一种任务调度方法、调度模块、推理节点和协同作业系统,其中方法应用于调度模块,该方法包括:获取各推理节点的待处理信息,各推理节点协同作业,待处理信息包括对应推理节点下的待处理任务数量和/或各待处理任务的任务类型;基于各推理节点的待处理信息,以及各推理节点在协同作业中的重要性,从各推理节点中选取目标节点,所有目标节点进行任务处理所需的计算资源总和小于等于额定计算量;向目标节点发送任务处理指令,以触发目标节点进行任务处理,满足了对整体吞吐量和任务响应时间的要求,解决了单一神经网络的调度推理方案无法对多个神经网络协同工作的任务进行调度推理的问题,实现了复杂场景下的调度推理。

    模型量化方法、装置、相关设备及计算机程序产品

    公开(公告)号:CN119312846A

    公开(公告)日:2025-01-14

    申请号:CN202411459812.2

    申请日:2024-10-18

    Abstract: 本申请公开了一种模型量化方法、装置、相关设备及计算机程序产品,本申请考虑到模型内部不同层级对量化的敏感度可能不同,为了实现更优的量化策略,并非以整个目标模型作为量化粒度,而是以目标模型的每一层作为量化粒度,根据每一层的权重和激活的数值大小,确定每一层的量化目标,进而可以按照每一层的量化目标,分别对目标模型中的每一层进行量化处理。本申请对于目标模型的每一层均确定与之匹配的量化目标,使得每一层能够按照更加匹配的量化目标进行量化处理,相比于传统方案对整个模型采用同一量化目标进行处理,本申请方案的量化策略更加优异,能够更好的平衡量化后模型的参数量及计算精度,提升模型量化的效果。

    任务调度方法及相关装置、电子设备和存储介质

    公开(公告)号:CN119166297A

    公开(公告)日:2024-12-20

    申请号:CN202411177287.5

    申请日:2024-08-26

    Abstract: 本申请公开了一种任务调度方法及相关装置、电子设备和存储介质,其中,任务调度方法包括:构建计算线程和通信线程;其中,计算线程用于调度多个图形处理器进行任务推理,通信线程用于在多个图形处理器之间全量同步任务推理的计算结果;划分若干推理任务为第一任务集和第二任务集;其中,各个推理任务均按照目标工作流执行,目标工作流包含依次执行的若干工作节点,各个工作节点的执行均由计算线程调度资源实现;交替调用计算线程、通信线程分别处理第一任务集和第二任务集,直至若干工作节点执行完毕为止。上述方案,能够从整机角度能够尽可能地降低发生计算资源被闲置的可能性,有助于提高推理过程中整机吞吐效率。

Patent Agency Ranking