一种面向多芯粒芯片的深度学习推理模拟器

    公开(公告)号:CN116523045A

    公开(公告)日:2023-08-01

    申请号:CN202310235465.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。

    一种面向芯粒的深度神经网络流水线并行调度方法及装置

    公开(公告)号:CN115421897A

    公开(公告)日:2022-12-02

    申请号:CN202211381782.9

    申请日:2022-11-07

    Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。

    一种分布式机器学习梯度汇聚方法、装置及模型训练方法

    公开(公告)号:CN115062771B

    公开(公告)日:2022-11-25

    申请号:CN202210981014.0

    申请日:2022-08-16

    Abstract: 本发明公开了一种分布式机器学习梯度汇聚方法、装置及模型训练方法,利用智能交换机进行计算节点梯度汇聚任务调度和模型训练。智能交换机不仅包含正常的网络交换功能,还能对梯度数据包进行解析,抽取包内数据并进行计算,并将结果重新组包发送给相关计算服务器,提供更为高效的数据交换服务。智能交换机将多台计算服务器连接起来组成训练网络,共同完成神经网络模型训练任务。本发明实现分布式机器学习训练,可优化梯度汇聚时间,减少梯度交换流量,加速大模型训练。

    基于Tensor访问的深度学习内存管理方法及系统

    公开(公告)号:CN112306697A

    公开(公告)日:2021-02-02

    申请号:CN202011619848.4

    申请日:2020-12-31

    Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。

    脉冲双星傅立叶域加速搜索GPU并行搜索方法和装置

    公开(公告)号:CN118377537A

    公开(公告)日:2024-07-23

    申请号:CN202410806587.9

    申请日:2024-06-21

    Abstract: 本发明公开了一种脉冲双星傅立叶域加速搜索GPU并行搜索方法和装置,方法包括以下步骤:获取脉冲双星观测数据前处理后的文件,从中读取包括最低傅立叶频率和最高傅立叶频率的参数并创建副谐波信息数组集合;在GPU中,以频率步长乘以批大小的傅立叶频率范围作为步长,从最低傅立叶频率到最高傅立叶频率对副谐波信息数组集合进行遍历搜索得到候选体集合,每次遍历搜索过程包括:计算初始副谐波数组和计算除初始副谐波数组外的副谐波数组集合,并行计算谐波求和与候选体筛选;将所有筛选符合要求的候选体集合进行保存。本发明支持利用多GPU并行加速,能够成倍地提升脉冲双星搜索进程,大大加速该学科的天体发现速度。

    面向芯粒的主协处理器协作计算模拟器设计方法和装置

    公开(公告)号:CN117632838A

    公开(公告)日:2024-03-01

    申请号:CN202311611140.8

    申请日:2023-11-29

    Abstract: 本发明公开了一种面向芯粒的主协处理器协作计算模拟器设计方法和装置,方法包括:构建由主协处理器协作计算的模拟器,主处理器为乱序执行CPU,协处理器包含功能模拟模块和性能模拟模块,主协处理器用RoCC交互接口连接;获取芯粒物理架构信息对模拟器进行设置;将神经网络编译为包含协处理器指令集的可执行文件;主处理器接收可执行文件,通过协处理器写指令构造消息发送给协处理器;协处理器根据消息类型进行处理并发送计算完成消息至主处理器;主处理器接收消息后通过协处理器读指令告知程序继续执行,最终获得神经网络的模拟运行结果和性能评估结果。本发明方法能够有效指导芯粒设计,降低芯粒设计过程中的经济开销和时间开销。

    一种面向多芯粒芯片的深度学习推理模拟器

    公开(公告)号:CN116523045B

    公开(公告)日:2023-11-07

    申请号:CN202310235465.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。

    一种图像渲染方法、装置、存储介质及电子设备

    公开(公告)号:CN116977525A

    公开(公告)日:2023-10-31

    申请号:CN202310956092.X

    申请日:2023-07-31

    Abstract: 本说明书公开了一种图像渲染方法、装置、存储介质及电子设备。所述图像渲染方法包括:将预设的三维渲染计算框架展示给用户,以使用户从预设的三维渲染计算框架所提供的各组件中,选取出用于构建用户所需的三维场景模型的神经辐射场的各组件,作为各目标组件,其中,各组件包括:编码函数组件、多层感知器组件、损失函数组件。根据各目标组件,构建三维场景模型对应的目标神经辐射场,响应用户发送的渲染请求,通过构建出的目标神经辐射场进行渲染得到三维场景模型的渲染图像。

    一种基于序列生成的异构芯片任务调度方法以及装置

    公开(公告)号:CN116932175A

    公开(公告)日:2023-10-24

    申请号:CN202311208268.X

    申请日:2023-09-19

    Abstract: 本说明书公开了一种基于序列生成的异构芯片任务调度方法以及装置,针对每个待调度任务,确定该待调度任务在各芯片上分别对应的执行时间,再确定各芯片分别对应的空闲时刻,根据各芯片分别对应的空闲时刻、各待调度任务在各芯片上分别对应的执行时间,生成调度序列,以根据调度序列调度各芯片执行各待调度任务。在包含异构芯片的计算集群中存在处于空闲状态的芯片的情况下,尽可能为该处于空闲状态的芯片分配与其匹配的任务,保证了任务执行效率。

Patent Agency Ranking