深度学习模型的分布式训练方法、装置、设备及存储介质

    公开(公告)号:CN113610241B

    公开(公告)日:2024-05-10

    申请号:CN202110884863.X

    申请日:2021-08-03

    Inventor: 田丽红 胡辰 许涛

    Abstract: 本发明实施例公开了一种深度学习模型的分布式训练方法、装置、设备及存储介质。该方法包括:获取目标深度学习模型的TensorFlow训练代码;确定所述TensorFlow训练代码的目标逻辑及封装类型;根据与所述目标逻辑及封装类型匹配的处理策略对所述TensorFlow训练代码进行调整;运行调整后的TensorFlow训练代码,以实现对所述目标深度学习模型的Horovod分布式训练。上述技术方案在Tensorflow代码背景下,自动实现深度学习模型的Horovod分布式训练计算的技术效果。

    一种分布式通信库的性能测试方法、装置、设备及介质

    公开(公告)号:CN113792875A

    公开(公告)日:2021-12-14

    申请号:CN202111056060.1

    申请日:2021-09-09

    Inventor: 艾珊珊 许涛 胡辰

    Abstract: 本发明公开了一种分布式通信库的性能测试方法、装置、设备及介质,包括:根据预设的拓扑结构以及集群规模,构建用于对深度学习模型进行分布训练的集群环境;通过集群环境中包括的全部节点,根据待测通信库,完成与深度学习模型对应的分布训练任务;获取集群环境在使用待测通信库下,对深度学习模型的训练结果数据,并根据训练结果数据,评估待测通信库针对集群环境,以及深度学习模型的通信性能。本发明实施例的技术方案可以有效验证分布式通信库在异构计算环境中的适用性,便于用户根据性能测试结果选择与异构计算环境匹配的分布式通信库。

    数据传输方法、装置、计算机设备及存储介质

    公开(公告)号:CN113645303A

    公开(公告)日:2021-11-12

    申请号:CN202110919398.9

    申请日:2021-08-11

    Abstract: 本发明公开了一种数据传输方法、装置、计算机设备及存储介质。该方法包括:获取用户输入的第一数据;获取客户端的开发语言;若客户端的开发语言为第一语言,将第一数据发送至预设服务器的第一语言接口,以便预设服务器通过第二语言接口将第一数据发送至服务端,服务端的开发语言为第二语言。本发明将客户端的第一数据发送至预设服务器适配第一语言的第一语言接口,通过预设服务器的第二语接口将第一数据发送至服务端,通过具备第一语言接口和第二语言接口的预设服务器实现接口的转换,实现将第一语言开发的客户端的第一数据能够成功发送至第二语言开发的服务端,以便服务端识别和使用,提高先进计算的计算集群的适用性。

Patent Agency Ranking