一种跨集群数据处理方法及装置
    1.
    发明公开

    公开(公告)号:CN120011112A

    公开(公告)日:2025-05-16

    申请号:CN202510488492.1

    申请日:2025-04-18

    Abstract: 本说明书公开了一种跨集群数据处理方法及装置。所述方法包括:将各计算节点所存储的第一结果数据拆分为多个数据切片;按照每个数据切片在第一结果数据中的先后顺序,依次将各数据切片从各计算节点发送给第一计算集群的主机内存,以使主机内存对已接收的数据切片和第二计算集群的主机内存中存储的数据切片进行规约计算,得到已接收的数据切片对应的第二结果数据;控制主机内存在接收后续的数据切片的同时,将第二结果数据从第一计算集群的主机内存发送给每个已接收的数据切片对应的计算节点;在各计算节点接收到全部数据切片对应的第二结果数据后,得到目标计算结果。本方案提高了跨集群通信效率,进一步提高了跨集群数据处理效率。

    一种用于大模型参数分区的并行训练加速方法和系统

    公开(公告)号:CN117744838A

    公开(公告)日:2024-03-22

    申请号:CN202410106133.0

    申请日:2024-01-25

    Abstract: 本发明公开了一种用于大模型参数分区的并行训练加速方法和系统,属于大模型预训练领域,包括:采集大模型训练时数据并行模式下的预配置信息和运行时信息;根据采集到的信息构建模型参数分区的性能决策模型,基于网格搜索算法和改进的通信算法得到包含冗余集的模型参数分区优化方案;结合数据并行模式和模型参数分区优化方案对大模型进行训练,得到包含训练时间开销和GPU显存利用率的当前指标;以当前指标最优为目标对前述步骤进行多次迭代,直到得到最优的模型参数分区方案,并运用于剩下的迭代训练。本发明提出的包含冗余集的模型参数分区方案,提供了一种灵活的大模型训练方案,能够明显节省通信开销,减少整体训练时间,从而提升训练效率。

    一种加速深度学习训练任务数据载入的方法

    公开(公告)号:CN113656333B

    公开(公告)日:2022-03-18

    申请号:CN202111221953.7

    申请日:2021-10-20

    Abstract: 本发明公开了一种加速深度学习训练任务数据载入的方法,该方法使用双随机序列方式,在每个训练周期开始时提前计算下一个周期的随机序列,并申请一块独立的内存提前缓存下一个周期初始阶段所需数据。根据当前周期的随机序列依次为神经网络准备数据的同时,可参照下一个周期的随机序列及时将下一个周期初始阶段所需数据依次从内存拷贝到缓存,使得下一个周期初始阶段所需的数据可全部从缓存获得。本发明不需修改现有深度学习的架构,实现简单,引入的计算开销小,缓存数据能全部命中且可被使用多次,从而减少从后端存储系统读取数据,并且训练周期数越多,此方法的加速效果越明显。

    一种数据快速读取方法、装置、电子设备及存储介质

    公开(公告)号:CN112597113B

    公开(公告)日:2021-06-01

    申请号:CN202110246172.7

    申请日:2021-03-05

    Abstract: 本发明公开了一种数据快速读取方法、装置、电子设备及存储介质,该方法包括:将数据集划分成若干份图片子集,对每个图片子集进行归一化处理,并分别聚合为一个文件;给数据集中的每个图片分配一个请求编号;通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;根据所述映射,快速读取数据集中的所有图片。将每个所述图片子集聚合为一个文件,减少了海量小样本元数据管理的开销,优化了数据集的组织形式,极大地提升了图片的读取速度;图片读取时通过多级地址映射,取代了原本低效的海量图片中随机查找的过程,极大地提升了读取速率。

    一种可组装的分布式计算和存储系统及其构造方法

    公开(公告)号:CN112804297A

    公开(公告)日:2021-05-14

    申请号:CN202011599244.8

    申请日:2020-12-30

    Abstract: 本发明公开了一种可组装的分布式计算和存储系统及其构造方法,包括:一个以上域服务器,用于计算服务或存储服务;网络交换单元,负责将域服务器连接形成分布式计算和存储系统;域服务器包括:对象处理单元,采用多核构造处理器线程组,负责域服务器内网络连接,并通过高级语言编程提供管理控制和数据处理;计算单元,提供计算能力;内存单元,用于动态随机存储器;持久化内存单元,用于非易失内存;存储单元,提供持久化存储;多个计算单元、多个内存单元、多个非易失内存单元、多个存储单元,分别通过网络交换单元连接形成计算池、内存池、非易失内存池、存储池;一个或多个域服务器通过网络交换单元连接形成分布式计算和存储系统。

    一种数据快速读取方法、装置、电子设备及存储介质

    公开(公告)号:CN112597113A

    公开(公告)日:2021-04-02

    申请号:CN202110246172.7

    申请日:2021-03-05

    Abstract: 本发明公开了一种数据快速读取方法、装置、电子设备及存储介质,该方法包括:将数据集划分成若干份图片子集,对每个图片子集进行归一化处理,并分别聚合为一个文件;给数据集中的每个图片分配一个请求编号;通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;根据所述映射,快速读取数据集中的所有图片。将每个所述图片子集聚合为一个文件,减少了海量小样本元数据管理的开销,优化了数据集的组织形式,极大地提升了图片的读取速度;图片读取时通过多级地址映射,取代了原本低效的海量图片中随机查找的过程,极大地提升了读取速率。

    面向推荐系统矩阵分解方法的异构多XPU机器学习系统

    公开(公告)号:CN111967590B

    公开(公告)日:2021-02-02

    申请号:CN202011142652.0

    申请日:2020-10-23

    Abstract: 本发明公开了面向推荐系统矩阵分解方法的异构多XPU机器学习系统,包括参数服务器和与其连接的一组XPU工作器,所述的参数服务器用于数据加载、数据分配,以及矩阵分解算法中参数分发、参数接收和参数更新,XPU工作器用于参数计算和局部更新,参数服务器包括DataManager模块,用于根据XPU工作器的性能计算并提供数据划分信息,XPU工作器包括异步SGD优化器。异构系统的数据采用一级分配,内部共享同一数据锁,当XPU规模变大时,锁开销加剧影响系统性能,利用XPU工作器的异步SGD优化器,使得XPU工作器之间相互无锁,XPU工作器内部独立进行数据分块和调度。

    支持深度神经网络推理加速的异构存算融合系统及方法

    公开(公告)号:CN112149816A

    公开(公告)日:2020-12-29

    申请号:CN202011340107.2

    申请日:2020-11-25

    Abstract: 本发明公开了一种支持深度神经网络推理加速的异构存算融合系统及方法,包括:主机处理器,用于控制和管理整个异构存算融合系统;非易失内存模块,与所述主机处理器相连,用于神经网络处理;3D堆叠内存模块,与所述主机处理器相连,用于神经网络处理;网络模块,与所述主机处理器相连,用于与外部主机连接;配置电路,与所述主机处理器相连,用于接收所述主机处理器的配置命令并控制电压发生器,也用于接收所述主机处理器的配置命令并配置3D堆叠内存模块;电压发生器,分别与所述非易失内存模块和配置电路相连,用于接收所述配置电路的控制命令,对所述非易失内存模块施加外部激励,调节其电导状态。

    一种基于混合存储的存内计算的方法与装置

    公开(公告)号:CN112015673A

    公开(公告)日:2020-12-01

    申请号:CN202011137494.X

    申请日:2020-10-22

    Abstract: 本发明涉及计算机内存计算领域,具体涉及一种基于混合存储的存内计算方法与装置,该方法包括:首先通过混合存储区将数据进行混合存储,然后利用数据转存区通过字线驱动器和控制器对某一指定行的数据进行移位操作,最后基于混合存储和移位操作进行数据的乘法计算。本发明结合非易失存储与内存计算,一方面计算数据以纳秒级的速度从非易失器件中获得,特别是对于深度神经网络推理这种场景,可将模型参数事先存放于非易失存储区,计算时能减少了数据访问的时间,提高了系统性能;另一方面通过改进电路操作流程,减少了不必要的数据搬移时间,使得移位时间也能缩短至纳秒级别,提升了对于乘法计算这种有大量移位操作的计算效率,提高了系统性能。

    一种分布式训练的集合通信控制方法、装置及介质

    公开(公告)号:CN119336451A

    公开(公告)日:2025-01-21

    申请号:CN202411863321.4

    申请日:2024-12-17

    Abstract: 本申请公开了一种分布式训练的集合通信控制方法、装置及介质,该方法包括:当参与数据归约的集群中,任意两个集群之间的计算节点数量的差距在预设范围内时,将第一集群内所有计算节点上的数据归约至指定计算节点上,指定计算节点的数量与计算节点数量最小的第二集群内计算节点的数量相同。控制指定计算节点与第二集群内的计算节点进行数据归约;控制指定计算节点与第一集群内除指定计算节点外的其他节点数据同步。由此,除计算节点数量最少的集群外的其他集群,先在集群内部进行一次归约,将数据归约至数量与各集群中最少节点的数量相同的指定计算节点上,保证跨集群归约时各集群节点相同,避免一些节点同时和多个节点归约,降低集合通信开销。

Patent Agency Ranking