基于异构GPU负载均衡的图神经网络分区方法

    公开(公告)号:CN119311414B

    公开(公告)日:2025-04-18

    申请号:CN202411421334.6

    申请日:2024-10-12

    Inventor: 邹毅 宋县锋 施政

    Abstract: 本发明公开基于异构GPU负载均衡的图神经网络分区方法,涉及GNN技术,针对现有技术中没有考虑分区之间的通信影响等问题提出本方案。S1.获取原始图G及分区目标数量N;S2.使用图分区算法进行粗化分区;S3.将每个子图随机预分配给各GPU;S4.对每个GPU进行计算开销建模;S5.对每个GPU进行通信开销建模;S6.根据计算开销和通信开销,设置启发式分区函数和内存约束;S7.根据启发式分区函数和内存约束对粗化分区进行调整;S8.将划分完成的分区子图分配至对应的GPU,执行图计算任务并汇总输出。其优点在于,所划分的子图可以在精度影响很小的情况下,不仅能适配GPU的性能,还尽可能减少通信需求,并防止内存溢出,最终有效减少训练时间、提升训练效率。

    一种基于GPU算力感知的启发式图分区方法

    公开(公告)号:CN118484296B

    公开(公告)日:2025-01-21

    申请号:CN202410461398.2

    申请日:2024-04-17

    Abstract: 本发明公开了一种基于GPU算力感知的启发式图分区方法,涉及图数据处理技术,针对现有技术中各个GPU负载不均衡的问题提出本方案。包括以下步骤:对原图进行边分区处理以得到各个GPU的负载子图,所述边分区处理由邻域扩展和模拟退火结合进行;衡量各个GPU子图的计算量,以确定子图训练顶点的分配;对缺失了一定邻域信息的切割顶点补全一跳邻居;分发各个子图到各个GPU上。优点在于,在子图上尽可能地保留原图的结构特征,从而保证训练精度不会有太多损失;加速分区的时间并避免落入局部最优;各个GPU最终的负载子图上的计算量与自身的算力相匹配,从而对整体的并行训练流程实现了加速效果。

    一种EDA电路仿真器加速计算的方法

    公开(公告)号:CN117634394A

    公开(公告)日:2024-03-01

    申请号:CN202311630393.X

    申请日:2023-11-30

    Inventor: 施政 宋县锋 邹毅

    Abstract: 本发明公开了一种EDA电路仿真器加速计算的方法,涉及电子设计自动化技术,针对现有技术中很难对真实数据预测的问题提出本方案。结合真实开源稀疏矩阵集合和企业真实电路矩阵集合基于DyLaClass算法进行标签和聚类后,通过机器学习模型训练得到最佳格式预测模型;在电路进行仿真并产生电路网表矩阵后,利用所述最佳格式预测模型对电路网表矩阵的最佳格式进行预测;将所述电路网表矩阵以最佳格式进行储存,再参与后续仿真运算。优点在于,所得到的模型预测准确度比现有技术的模型更加精确,用户可以尽可能的将更多的真实数据输入参与训练模型,而不需要将数据进行筛选剔除来拼凑一个较好的数据分布。可以更高效的提升电路矩阵乘法的速度。

    一种基于图神经网络的预路由时序预测系统

    公开(公告)号:CN118607434A

    公开(公告)日:2024-09-06

    申请号:CN202410735022.6

    申请日:2024-06-07

    Inventor: 邹毅 彭炫 宋县锋

    Abstract: 本发明公开了一种基于图神经网络的预路由时序预测系统,涉及数字集成电路,包括:多个网络节点嵌入模型,用于对输入节点特征进行向前传递和拼接,以获取多维度的输出节点特征;门级节点嵌入模型,用于对所述输入节点特征进行向前传递;将所述门级节点嵌入模型的向前传递输出与输出节点特征进行相加,以获取网络延时;层级信息传播模型,用于对所述输出节点特征进行特征的异步更新,以获取门级延时、到达时间和转换时间。本发明降低了预测系统模型的复杂度,减小了算力的消耗。

    一种基于GPU算力感知的启发式图分区方法

    公开(公告)号:CN118484296A

    公开(公告)日:2024-08-13

    申请号:CN202410461398.2

    申请日:2024-04-17

    Abstract: 本发明公开了一种基于GPU算力感知的启发式图分区方法,涉及图数据处理技术,针对现有技术中各个GPU负载不均衡的问题提出本方案。包括以下步骤:对原图进行边分区处理以得到各个GPU的负载子图,所述边分区处理由邻域扩展和模拟退火结合进行;衡量各个GPU子图的计算量,以确定子图训练顶点的分配;对缺失了一定邻域信息的切割顶点补全一跳邻居;分发各个子图到各个GPU上。优点在于,在子图上尽可能地保留原图的结构特征,从而保证训练精度不会有太多损失;加速分区的时间并避免落入局部最优;各个GPU最终的负载子图上的计算量与自身的算力相匹配,从而对整体的并行训练流程实现了加速效果。

    基于异构GPU算力感知的子图划分方法、装置及介质

    公开(公告)号:CN117492984A

    公开(公告)日:2024-02-02

    申请号:CN202311412727.6

    申请日:2023-10-27

    Abstract: 本发明公开了一种基于异构GPU算力感知的子图划分方法、装置及介质,属于图数据处理技术领域。其中方法包括:获取原始图数据G及子图划分目标数量N,根据原始图的节点数和边数,计算整体计算负担;评估每个GPU的算力,结合评估结果设计算力感知的启发式函数,为每个GPU确定目标计算负担;根据每个节点的度数构建加权图Gw;使用图分区算法对加权图Gw完成粗化图的划分,得到子图;根据启发式函数和节点权重,调整不同子图的大小,以完成全部子图的划分。本发明充分考虑不同GPU的算力,来细化调整子图的规模,可以显著提高图计算任务在含有不同算力GPU的集群上的执行效率,以最大化每个GPU的计算潜力。

    一种基于存内计算技术的新型粗粒度可配置架构

    公开(公告)号:CN119884016A

    公开(公告)日:2025-04-25

    申请号:CN202411835936.6

    申请日:2024-12-13

    Abstract: 本发明公开一种基于存内计算技术的新型粗粒度可配置架构,涉及SRAM技术,针对现有技术中依赖片上缓存等四大问题提出本方案。包括分散/聚集模块、管理模块、转换模块以及存内计算宏。存内计算宏用于在管理模块控制下进行运算。其优点在于,相较其他基于冯·诺依曼架构处理引擎的粗粒度可配置架构技术方案,具有面积更小,功耗更低,吞吐量更高的特点。同时针对SRAM存内计算技术的四大挑战提出一个可行的解决方案:利用率方面充分利用存内计算技术在算力密度和能效方法的优势;计算架构方法灵活决定粗粒度可配置架构的片上缓存大小;计算完备性方面满足更多的应用的计算要求;软件生态方面允许被RISC‑V CPU调用,支持编译和加速RISC‑V生态下的应用。

    基于异构GPU负载均衡的图神经网络分区方法

    公开(公告)号:CN119311414A

    公开(公告)日:2025-01-14

    申请号:CN202411421334.6

    申请日:2024-10-12

    Inventor: 邹毅 宋县锋 施政

    Abstract: 本发明公开基于异构GPU负载均衡的图神经网络分区方法,涉及GNN技术,针对现有技术中没有考虑分区之间的通信影响等问题提出本方案。S1.获取原始图G及分区目标数量N;S2.使用图分区算法进行粗化分区;S3.将每个子图随机预分配给各GPU;S4.对每个GPU进行计算开销建模;S5.对每个GPU进行通信开销建模;S6.根据计算开销和通信开销,设置启发式分区函数和内存约束;S7.根据启发式分区函数和内存约束对粗化分区进行调整;S8.将划分完成的分区子图分配至对应的GPU,执行图计算任务并汇总输出。其优点在于,所划分的子图可以在精度影响很小的情况下,不仅能适配GPU的性能,还尽可能减少通信需求,并防止内存溢出,最终有效减少训练时间、提升训练效率。

Patent Agency Ranking