数据处理方法、高性能计算存储系统及电子设备

    公开(公告)号:CN116755614A

    公开(公告)日:2023-09-15

    申请号:CN202310593625.2

    申请日:2023-05-23

    Inventor: 高达 高飞

    Abstract: 本申请属于云计算领域,涉及数据处理方法、高性能计算存储系统及电子设备。应用于HPC存储系统中的控制器,包括:获取待处理数据,根据待处理数据确定待处理数据所在的当前持久化内存PMEM单元;获取所述当前PMEM单元中与待处理数据对应的读取频率和写入频率;通过所述控制器中的冷数据过滤器和热数据过滤器根据所述读取频率和所述写入频率对所述待处理数据进行过滤,以获取与所述待处理数据对应的数据类型;根据所述数据类型将所述待处理数据移动至目标PMEM单元,所述目标PMEM单元为用于快写慢读的第一PMEM单元或者用于快读慢写的第二PMEM单元。本申请能够实现读写数据的分区存储,降低了数据的读写延迟。

    模型训练的校正方法及相关设备
    2.
    发明公开

    公开(公告)号:CN119903892A

    公开(公告)日:2025-04-29

    申请号:CN202411978718.8

    申请日:2024-12-30

    Inventor: 高达

    Abstract: 本公开提供了一种模型训练的校正方法及相关设备,涉及人工智能技术领域,该方法包括:在大模型的进行迭代训练的过程中,在每次迭代更新时,实时采集多个网络层的网络参数的历史梯度信息;根据所述历史梯度信息,确定校正策略;根据所述大模型的网络层,调整所述校正策略的校正幅度,确定当前次校正的校正幅度;根据所述校正策略和所述当前次校正的校正幅度,对所述大模型的每个网络层的当前梯度信息进行校正,得到校正后的梯度信息。通过监测和分析迭代训练的过程中的历史梯度信息,自适应的校正梯度更新方向和幅度,减少训练后期的震荡和不稳定现象,提高训练的稳定性和收敛速度。

    模型训练方法及装置、计算机可读存储介质、电子设备

    公开(公告)号:CN118734065A

    公开(公告)日:2024-10-01

    申请号:CN202410733642.6

    申请日:2024-06-06

    Inventor: 高达

    Abstract: 本公开涉及人工智能技术领域,提供了一种模型训练方法、模型训练装置、计算机可读存储介质、电子设备,其中,模型训练方法包括:获取训练数据,并对所述训练数据进行压缩处理,获得压缩训练数据;将所述压缩训练数据划分为多个数据子集,将所述多个数据子集分配至多个训练节点;通过所述多个训练节点基于各自分配到的数据子集对待训练的原始大模型进行并行训练,并获取每个所述训练节点基于模型预测结果所计算出来的局部模型梯度;根据多个所述局部模型梯度确定全局模型梯度,以根据所述全局模型梯度对所述待训练的原始大模型的模型参数进行更新。本公开中的方法能够在提升模型训练速度的同时,降低通信开销。

    数据传输控制方法、装置、电子设备及存储介质

    公开(公告)号:CN117614908A

    公开(公告)日:2024-02-27

    申请号:CN202311630224.6

    申请日:2023-11-30

    Inventor: 高达 康亚京 王磊

    Abstract: 本公开提供了一种数据传输控制方法、装置、电子设备及存储介质,涉及数据通信技术领域。该方法包括:向数据传输链路上各个转发节点发送网络质量轮询数据包;接收数据传输链路上各个转发节点反馈的网络质量响应数据包;根据各个转发节点反馈的网络质量响应数据包,确定各个转发节点传输数据的传输质量是否满足预设传输控制条件;当第一转发节点的传输质量满足预设传输控制条件时,向第二转发节点发送传输控制帧,以控制第二转发节点向第一转发节点发送的数据包,第一转发节点为所述数据传输链路上任一个转发节点,第二转发节点为第一转发节点的上游节点。本公开能够避免因转发节点存在数据拥塞而导致数据传输质量下降的问题。

    网络模型的训练方法及装置、存储介质、电子设备

    公开(公告)号:CN119250163A

    公开(公告)日:2025-01-03

    申请号:CN202411397564.3

    申请日:2024-10-08

    Inventor: 高达

    Abstract: 本公开是关于一种网络模型的训练方法及装置、存储介质、电子设备,涉及机器学习技术领域,该方法包括:获取训练完成的神经网络模型在训练过程中所访问的历史数据块以及访问历史数据块所产生的历史数据块访问日志;根据历史数据块确定与训练完成的神经网络模型对应的待训练的神经网络模型在训练过程中所需的待访问数据块;根据历史数据块访问日志,确定待访问数据块的当前数据访问模式以及当前数据存取顺序,并根据数据访问模式确定待访问数据块的当前数据缓存层级;根据当前数据存取顺序以及当前数据缓存层级对待访问数据块进行缓存,并基于所缓存的待访问数据块对待训练的神经网络模型进行训练。本公开提高了模型训练效率。

    分布式模型训练方法、系统和相关设备

    公开(公告)号:CN118898286A

    公开(公告)日:2024-11-05

    申请号:CN202410940456.X

    申请日:2024-07-12

    Inventor: 刘圆 高达 程帅

    Abstract: 本公开提供一种分布式模型训练方法、系统和相关设备,涉及计算机与互联网技术领域。该方法包括:将训练目标模型的训练集进行拆分,获得第一训练子集,第一训练子集包括多个第一迷你子集;第一训练节点通过第一迷你子集对目标模型进行梯度计算,获得第一梯度;第一训练节点从对应的CXL内存中获取第一梯度聚合变量;第一训练节点根据第一梯度对第一梯度聚合变量进行聚合更新,并将聚合更新后的第一梯度聚合变量刷新到第一训练节点对应的CXL内存中,其中CXL内存控制第一梯度聚合变量保持全局一致性;通过第一机架中的第一梯度聚合变量对目标模型的模型参数进行更新。本实施例提供的技术方案可以高效的完成对目标模型的分布式训练。

    分布式数据传输方法、装置、电子设备及存储介质

    公开(公告)号:CN119603218A

    公开(公告)日:2025-03-11

    申请号:CN202411756263.5

    申请日:2024-12-02

    Inventor: 高达

    Abstract: 本公开提供了一种分布式数据传输方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:对分布式训练任务进行划分,得到多个子任务;根据子任务间依赖关系确定各个子任务的传输顺序;根据网络状态数据确定各个子任务的传输路径,任一传输路径用于描述将任一子任务传输至对应的计算节点的传输路径;根据该传输顺序与该传输路径,依次将各个子任务传输至对应的计算节点。由于本公开可基于子任务间依赖关系确定划分得到的各个子任务的传输顺序,并根据网络状态数据确定各个子任务的传输路径,因此,本公开能够进一步提高数据传输的效率与可靠性。

    模型训练方法、装置、电子设备及存储介质

    公开(公告)号:CN119576536A

    公开(公告)日:2025-03-07

    申请号:CN202411620770.6

    申请日:2024-11-13

    Inventor: 高达

    Abstract: 本公开提供了一种模型训练方法、装置、电子设备及存储介质,涉及分布式计算技术领域。该方法包括:基于待训练模型的结构分析,将上下文划分为上下文任务;对上下文任务进行依赖关系分析,确定任务依赖图;根据任务依赖图为上下文任务配置优先级,并将配置优先级的上下文任务分配至对应计算节点按照执行顺序进行训练,获取计算节点的负载信息和任务执行信息;根据计算节点的负载信息和任务执行信息,在计算节点之间调度上下文任务以及调整计算节点内上下文任务的执行顺序,输出训练结果。根据各节点的实时负载情况,调整任务分配,实现计算节点的负载均衡,提升计算资源利用效率,优化上下文任务调度策略,提升计算资源利用率,缩短训练时间。

Patent Agency Ranking