一种用于分布式训练系统的算力路由数据包转发方法

    公开(公告)号:CN117336223A

    公开(公告)日:2024-01-02

    申请号:CN202311302117.0

    申请日:2023-10-09

    Abstract: 本发明提供一种用于分布式训练系统的算力路由数据包转发方法,提供了用于分布式训练的算力路由机制,具体包括:控制器解析算法生成的路由策略,并根据算力路由判断逻辑将生成的流表自动下发到可编程交换机中;在组播前执行源路由策略以保证路由机制的灵活性;设计的算力服务层报头包括算力路径标识和算力服务索引,前者用于标识组播节点以及算力服务路径,后者用于标识组播功能以及算力服务路径上具体的服务索引;在组播节点执行算力服务层转发策略,当算力服务索引值为0时执行组播策略,通过组播机制保证各个分布式计算节点中参数的同步性;将计算节点归类为同步节点和异步节点,通过组播域内和组播域间的范围描述来表示算力节点之间的关系。

Patent Agency Ranking