一种用于大模型参数分区的并行训练加速方法和系统

    公开(公告)号:CN117744838A

    公开(公告)日:2024-03-22

    申请号:CN202410106133.0

    申请日:2024-01-25

    Abstract: 本发明公开了一种用于大模型参数分区的并行训练加速方法和系统,属于大模型预训练领域,包括:采集大模型训练时数据并行模式下的预配置信息和运行时信息;根据采集到的信息构建模型参数分区的性能决策模型,基于网格搜索算法和改进的通信算法得到包含冗余集的模型参数分区优化方案;结合数据并行模式和模型参数分区优化方案对大模型进行训练,得到包含训练时间开销和GPU显存利用率的当前指标;以当前指标最优为目标对前述步骤进行多次迭代,直到得到最优的模型参数分区方案,并运用于剩下的迭代训练。本发明提出的包含冗余集的模型参数分区方案,提供了一种灵活的大模型训练方案,能够明显节省通信开销,减少整体训练时间,从而提升训练效率。

    一种超算中心间的大文件分片传输方法和传输架构

    公开(公告)号:CN115242782B

    公开(公告)日:2023-01-03

    申请号:CN202211148476.0

    申请日:2022-09-21

    Abstract: 本发明涉及超级计算机的资源管理技术领域,公开一种超算中心间的大文件分片传输方法和传输架构,该方法包括:步骤一,收集超算中心间传包的文件数据,对其中作为发送方的超算中心进行初始化工作;步骤二,完成初始化工作后,发送方的超算中心获取初始状态,利用强化学习算法,动态调整文件数据的分片大小,后根据分片大小进行文件数据分片后传输给接收方的超算中心;步骤三,接收方的超算中心根据其接收状态,发送传输反馈给发送方的超算中心;步骤四,更新并判断剩余的文件数据的大小,以此判断文件数据是否传输完毕,若未传输完毕,则重复步骤二至步骤四,直至整个文件数据传输完成。本发明可以有效降低系统资源的浪费,提升整体的系统效率。

    一种异构超算环境下多策略的作业调度方法及系统

    公开(公告)号:CN114610474B

    公开(公告)日:2022-09-02

    申请号:CN202210511947.3

    申请日:2022-05-12

    Abstract: 本发明公开一种异构超算环境下多策略的作业调度方法及系统,该方法包括:步骤一,客户端响应于用户的作业请求,将用户作业请求发送给作业调度中心;步骤二,作业调度中心接收到客户端的请求后,解析请求并将所请求的作业添加到作业队列中,同时启用信息采集模块,收集各超算中心的超算资源状态信息;步骤三,作业调度中心根据各超算中心超算资源的状态信息筛选出可用的超算资源,然后将可用的超算资源状态信息和作业请求的信息一起交给强化学习调度器,强化学习调度器生成调度结果,即所述强化学习调度器从可用的超算资源中选择出最适合的超算资源,将作业调度到该超算资源上执行。本发明启用多线程同时调度作业,加速并提升了调度的效率。

    一种异构超算环境下多策略的作业调度方法及系统

    公开(公告)号:CN114610474A

    公开(公告)日:2022-06-10

    申请号:CN202210511947.3

    申请日:2022-05-12

    Abstract: 本发明公开一种异构超算环境下多策略的作业调度方法及系统,该方法包括:步骤一,客户端响应于用户的作业请求,将用户作业请求发送给作业调度中心;步骤二,作业调度中心接收到客户端的请求后,解析请求并将所请求的作业添加到作业队列中,同时启用信息采集模块,收集各超算中心的超算资源状态信息;步骤三,作业调度中心根据各超算中心超算资源的状态信息筛选出可用的超算资源,然后将可用的超算资源状态信息和作业请求的信息一起交给强化学习调度器,强化学习调度器生成调度结果,即所述强化学习调度器从可用的超算资源中选择出最适合的超算资源,将作业调度到该超算资源上执行。本发明启用多线程同时调度作业,加速并提升了调度的效率。

    一种任务调度方法、装置、计算机设备和存储介质

    公开(公告)号:CN117873679A

    公开(公告)日:2024-04-12

    申请号:CN202410032938.5

    申请日:2024-01-09

    Abstract: 本申请涉及一种任务调度方法、装置、计算机设备和存储介质。所述装置包括:节点信息模块,用于采集并储存集群节点的历史节点信息以及历史任务信息;资源预测模块,用于根据历史节点信息和历史任务信息,计算得到针对集群节点的资源状态预测信息;调度器,用于接收当前待部署任务,并根据资源状态预测信息,确定集群节点中的至少一个当前部署节点,以及当前待部署任务中与当前部署节点对应的子任务;任务下发模块,连接所述调度器,用于向当前部署节点发送对应的子任务。采用本装置,通过所述资源预测模块,预测进行任务调度时的集群节点状态,保证时效性,避免因状态滞后导致调度未达到理想状况。

    一种基于递归算法的多级表单界面可视化生成方法及装置

    公开(公告)号:CN116627418B

    公开(公告)日:2023-10-03

    申请号:CN202310898879.5

    申请日:2023-07-21

    Inventor: 江宇薇 方启明

    Abstract: 本发明公开了一种基于递归算法的多级表单界面可视化生成方法及装置,属于网络信息技术领域;方法主要包括:建立组件JSON规范,设计组件类型,定义多级组件递归结构,开发可视化搭建面板,创建表单组件编辑面板,以及开发JSON文件生成工具。递归算法在此发明中用于实现各层级初始数据的设置,以及复杂对象类型的渲染和操作。装置主要包括:负责存储基础类型组件和复合类型组件的组件列表模块,实现复合组件的渲染的显示面板模块,实现对组件的编辑和复用等功能的组件编辑操作模块,以及生成符合平台JSON规范的JSON的预构置器模块。本发明能够简化表单开发过程,提高开发效率,具备较高的灵活性和可扩展性,适用于处理多层级嵌套的复杂表单场景。

    工作流执行序列生成方法、装置、计算机设备和存储介质

    公开(公告)号:CN117369962A

    公开(公告)日:2024-01-09

    申请号:CN202311149336.X

    申请日:2023-09-07

    Abstract: 本申请涉及一种工作流执行序列生成方法、装置、计算机设备和存储介质。所述方法包括:获取工作流执行序列数据集,所述工作流执行序列数据集包括训练工作流描述和对应的标准工作流执行序列,基于所述工作流执行序列数据集训练初始模型,得到执行序列生成模型,将目标工作流需求描述输入所述执行序列生成模型,得到初始工作流执行序列,若所述初始工作流执行序列不满足预设要求,则将所述初始工作流执行序列输入执行序列优化模型,确定目标工作流执行序列,所述执行序列优化模型由强化学习模型训练得到。不仅提高了工作流执行序列生成效率,节省了大量的人力和时间,同时提高了资源利用率。

    一种基于插桩的自动化性能数据获取和分析方法及装置

    公开(公告)号:CN117349134A

    公开(公告)日:2024-01-05

    申请号:CN202311278119.0

    申请日:2023-09-28

    Abstract: 本发明公开了一种基于插桩的自动化性能数据获取和分析方法及装置,所述方法包括以下步骤:通过配置选项选择待插桩的源代码范围,定位待插桩的源代码范围中的原始函数定义处的函数名,进行更名操作;生成包括性能数据获取块一、更名后的函数调用块、性能数据获取块二的插桩器;为每个更名后的函数生成一个与原始函数同名、具有相同参数列表和返回类型的函数,并在函数中插入插桩器以存储原始函数的性能数据;获取原始函数的性能数据进行分析,并生成结果报告。上述方案在保证插桩结果正确性的前提下,简化了性能数据获取的插桩过程和工作量。

    一种缓存数据的处理方法、深度学习训练方法和系统

    公开(公告)号:CN117215973A

    公开(公告)日:2023-12-12

    申请号:CN202311179609.5

    申请日:2023-09-13

    Abstract: 本申请涉及一种缓存数据的处理方法、深度学习训练方法和系统。应用于本地节点,本地节点连接远程节点以及服务器,本地节点设置有本地命中缓存区和本地淘汰缓存区:从本地命中缓存区中读取第一已缓存数据,并得到当前读取数据;其中,第一已缓存数据包括已分配至本地节点并缓存在本地命中缓存区的第一历史训练数据,以及本地节点从远程节点预读取并缓存至本地命中缓存区的第二历史训练数据;在服务器基于当前读取数据生成深度学习模型的情况下,本地节点将当前读取数据转移至淘汰缓存区中,得到第二已缓存数据。采用本方法能够提高深度学习训练的效率。

    一种应用的构建和部署以及辅助运行的系统和方法

    公开(公告)号:CN117193796A

    公开(公告)日:2023-12-08

    申请号:CN202311089591.X

    申请日:2023-08-28

    Abstract: 本发明公开了一种应用的构建和部署以及辅助运行的系统和方法,包括应用管理模块、存储模块、节点代理模块、节点管理模块、边车组件、共用组件、转发管理模块,基于这些模块,用户提交应用构建部署请求,系统根据用户上传的软件包构建部署应用,并根据用户选择使用的共用组件列表同步部署边车组件。应用在实际运行时,向外部发出的请求均被边车组件捕获,若请求是发向共用组件的,则由边车组件根据最新的共用组件状态等相关信息,确定接收请求的共用组件,然后由边车组件向对应的共用组件转发请求为应用提供服务。该方法简便,在保证应用可用性的同时,进一步提升了计算资源的使用率。

Patent Agency Ranking