张量处理单元上加速稀疏矩阵计算的方法及存储介质

    公开(公告)号:CN119441698B

    公开(公告)日:2025-04-29

    申请号:CN202411531342.6

    申请日:2024-10-30

    Abstract: 本申请公开了一种张量处理单元上加速稀疏矩阵计算的方法及存储介质,所述方法包括:获取第一矩阵,其中第一矩阵包括行索引值或列索引值,第一矩阵为基于输入序列得到的稀疏矩阵;基于行索引值或列索引值,对所述第一矩阵的行和列进行重新排序,得到第二矩阵,以使所述第二矩阵相对于第一矩阵的缓存命中率更高;从GPU的内存中读取第三矩阵,并对所述第二矩阵和第三矩阵进行运算,其中所述第三矩阵是指与所述第二矩阵进行运算的矩阵,所述第三矩阵基于所述输入序列得到。通过本技术,并在tensor core上执行矩阵运算,减少了冗余计算操作,提升了运行过程中的缓存命中率实现了对稀疏矩阵的高效计算与运算资源的优化利用,极大地提升了矩阵计算的整体性能。

    一种面向国产超算系统的大模型训练优化方法及装置

    公开(公告)号:CN119647559A

    公开(公告)日:2025-03-18

    申请号:CN202411583800.0

    申请日:2024-11-07

    Abstract: 一种面向国产超算系统的大模型训练优化方法,应用于多个国产超算系统的计算设备,每个计算设备配置有GPU,GPU包含至少一个进程,方法应用于Megatron‑DeepSpeed框架,方法包括:确定大模型训练所需要的进程,每个进程确定归属的进程组;基于Megatron‑DeepSpeed框架中张量并行、流水线并行、数据并行的顺序,同时构建进程组,进程组中包括至少一个进程;每个进程在并行训练框架中执行多次前向计算和反向计算,通过进程组的通信机制进行数据交换与同步,前向计算和反向计算包括集合通信。本方法能够提高在国产超算上进行大模型训练时的训练效率。

    一种基于深度学习的前瞻因子筛选方法

    公开(公告)号:CN111476030B

    公开(公告)日:2022-03-15

    申请号:CN202010382568.X

    申请日:2020-05-08

    Abstract: 本发明涉及一种基于深度学习的前瞻因子筛选方法,包括:通过分词,词频统计和词性分析得到因子数据库中的各个因子关键字,并建立因子黑名单;在行业数据库中查询得到行业的时间序列数据;在图表数据库中查询得到该行业的研报图表;通过字符识别技术,得到行业研报图表中的文字信息;通过分词、词频统计和词性分析得到行业研报图表中的关键字,并建立研报黑名单;逐条将行业研报图表关键字和因子关键字进行匹配,得到与该行业相关的因子数据;针对行业数据和因子数据,通过滑动窗口时差相关系数均值计算和先行判定得到行业相关因子和最优先行阶数列表;针对得到的列表,通过单因素方差分析进行去共线性分析,筛选因子列表得到该行业的前瞻因子。

    一种异构计算环境中多源账号的用户统一账号标识系统

    公开(公告)号:CN111695108A

    公开(公告)日:2020-09-22

    申请号:CN202010499985.2

    申请日:2020-06-04

    Abstract: 本发明涉及一种异构计算环境中多源账号的用户统一账号标识系统,其包括:登录账号映射模块、计算账号映射模块、统一账号管理模块、映射管理模块和账号代理模块;其中,登录账号映射模块实现多来源登录账号到统一账号的动态绑定过程,并负责记录映射信息和日志信息;计算账号映射模块用于实现多来源计算账号到统一账号的动态绑定过程,并负责记录映射信息和日志信息;统一账号管理模块负责在异构平台的多种形式的终端之中的实现用户的身份标识功能;映射管理模块管理登录账号到统一账号、计算账号和统一账号之间的两层动态映射关系;账号代理模块负责对接不同的计算账号源,将计算资源的认证服务封装为统一的认证接口,实现简单的认证功能。

    基于自动化参数调整循环神经网络的时序数据预测方法

    公开(公告)号:CN111598329A

    公开(公告)日:2020-08-28

    申请号:CN202010401266.2

    申请日:2020-05-13

    Abstract: 本发明实施例提供了一种时序数据预测方法及预测模型的训练方法,训练方法包括:分别从先获得的行业时间序列数据集和行业关键因子信息时间序列数据集中,查询给定行业和给定行业关键因子的时间序列数据;根据预测周期长度,划分上述给定行业和给定行业关键因子的时间序列数据,得到训练集,利用训练集对时序数据预测模型进行训练。时序数据预测方法包括,将给定行业和给定行业关键因子的时间序列数据,输入由该训练方法预先训练的时序数据预测模型,获得行业预测结果。使用上述方法,可根据行业历史信息和选择的关键因子信息,获取对行业的预测信息,同时,在训练中的特性工程和超参数调优中利用自动化参数调整,减少了训练过程工作量。

    一种基于八叉树的计算节点负载均衡方法和装置

    公开(公告)号:CN120012508A

    公开(公告)日:2025-05-16

    申请号:CN202510114440.8

    申请日:2025-01-24

    Abstract: 本申请提供一种基于八叉树的计算节点负载均衡方法和装置,包括将计算区域划分为多个子区域,对计算区域进行递归划分,得到计算区域对应的八叉树结构,根据八叉树结构,依次将叶节点分配到不同的计算节点上,使得各计算节点的负载值均衡,随着模拟仿真进程,重新计算叶节点的负载值,根据叶节点的负载值,重新分配叶节点到计算节点上,使得计算节点的负载值重新均衡。本发明基于计算负载评估结果,对负载不均衡的进程进行八叉树网格划分,主要在相邻背景网格的进程之间进行调整,优化各计算节点的负载分布,并有利于计算过程中相邻子区域的数据传输。

    一种基于有损压缩的大规模并行通信优化方法

    公开(公告)号:CN119376977B

    公开(公告)日:2025-04-15

    申请号:CN202411436342.8

    申请日:2024-10-15

    Abstract: 本公开涉及深度学习大规模模型并行训练通信优化,具体涉及一种基于有损压缩的大规模并行通信优化方法,包括:将原始数据划分为N×N个块数据;各个进程非阻塞接收来自上一个进程的块数据,同时基于SZX算法压缩本进程上一轮接收到的块数据,再非阻塞发送所述压缩后的块数据至下一个进程,同时解压缩接收到的块数据并进行规约操作,直至每个进程持有规约子块结果;每个进程以环形的方式并行通信,直至每个进程都持有所有进程压缩后的规约子块结果;各个进程开始对接收到的所有压缩后的规约子块结果进行解压缩并存储数据。该方法降低了大模型张量并行训练中的通信开销,实现发送和接收与压缩和解压缩时间开销的相互掩蔽,节约了时间成本。

Patent Agency Ranking