一种多加速器异构SoC平台上深度学习负载映射优化方法及系统

    公开(公告)号:CN119476419A

    公开(公告)日:2025-02-18

    申请号:CN202411615432.3

    申请日:2024-11-13

    Abstract: 本发明公开了一种多加速器异构SoC平台上深度学习负载映射优化方法及系统,涉及计算机性能能耗协同优化技术领域,用以提高深度学习推理应用的性能同时降低能耗。本发明的技术要点包括:首先提取有性能或能耗优化潜力的子网络;接着测量融合节点和子网络的性能和能耗数据;再建立解析的性能和能耗预测模型,以预测不同映射配置下推理引擎的运行时间和能耗;之后使用基于变长滑动窗口的映射优化算法搜索性能‑能耗更优的映射配置;最后生成推理引擎并遍历搜索最优的CUDA stream数量。本发明无需用户干预,可以全自动地找到性能‑能耗更优的映射配置并生成推理引擎。与现有的JEDI等方法相比,本发明性能提升更多,能耗节省也更多,同时优化过程所需时间也更短。

    一种面向异构平台的复杂指针数据结构自动管理系统

    公开(公告)号:CN112083956B

    公开(公告)日:2022-12-09

    申请号:CN202010971038.9

    申请日:2020-09-15

    Abstract: 一种面向异构平台的复杂指针数据结构自动管理系统,涉及异构编程技术领域。本发明为了实现OpenMP Offloading程序中复杂指针数据结构在异构计算平台上的自动管理并保证数据一致性。本发明包括:信息收集模块,用于对源程序的静态分析及程序信息收集;自动转换模块,主要负责根据变量类型的不同,在适当位置修改源码并插入合适的运行时API;运行时模块,主要负责使用cudaMallocManaged( )和cudaFree( )重新实现C++标准的内存管理操作并向外提供接口。本发明可以自动管理OpenMP Offloading程序中复杂指针数据结构在CPU和GPU内存之间的内存分配、释放以及数据传输,并保证数据一致性;从而为OpenMP Offloading程序开发提供便利。

    一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统

    公开(公告)号:CN113448425B

    公开(公告)日:2022-09-09

    申请号:CN202110810963.8

    申请日:2021-07-19

    Abstract: 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统,属于并行程序能耗优化技术领域,目的是自动地优化并行应用程序的能耗,并且不需要领域专家知识,对程序是透明的。本发明的技术要点包括:程序的阶段根据工作负载的特征,分为计算密集阶段和内存密集阶段,根据应用程序不同的实时工作负载特征,动态调整处理器功率配置,使硬件功率配置文件与运行时动态变化的程序阶段匹配;通过强化学习算法自动探索功率配置空间,根据环境反馈的奖惩信息,不断优化配置空间;最后,根据自动学习到的策略动态调整功率配置以匹配不断变化的程序阶段。本发明实现了自动且动态的并行程序

    一种异构并行程序自动移植和优化方法

    公开(公告)号:CN111966397B

    公开(公告)日:2025-01-07

    申请号:CN202010710022.2

    申请日:2020-07-22

    Abstract: 一种异构并行程序自动移植和优化方法,属于异构并行程序开发技术。本发明是为了实现CPU并行程序自动移植、在减轻开发人员工作负担的同时提高程序性能,从而解决并行指令转换、数据传输管理及优化问题。技术要点:构建异构并行程序自动移植系统的框架,异构并行程序自动移植系统用于将OpenMP CPU并行程序自动翻译为OpenMP Offloading异构并行程序;一致性状态转换形式化,保证数据一致性的前提下,优化传输操作,减少冗余数据传输;运行时库设计,运行时库用于提供自动数据传输管理和优化功能,维护每个变量内存区域一致性状态;源到源翻译器设计,翻译器用于自动转换并行指令及自动插入运行时API。该方法可以自动识别CPU并行指令并转换为加速器并行指令,提高程序性能。

    一种无模型的GPU在线能效优化方法及系统

    公开(公告)号:CN117891677A

    公开(公告)日:2024-04-16

    申请号:CN202310843318.5

    申请日:2023-07-10

    Abstract: 一种无模型的GPU在线能效优化方法及系统,属于计算机能效优化技术,为了实现GPU在线自动能效优化而提出。技术要点:性能基准在线测量,在默认频率配置下全面收集GPU kernel活动信息,设计覆盖度指标,评估收集信息的完备度;应用性能在线评估,在某种特定频率配置下收集GPU kernel活动信息,通过比较此时的GPU kernel活动信息与默认配置下的对应GPU kernel活动信息,设计复合性能指标,来在线评估当前频率配置下的相对性能;基于PID的频率调节算法,使用经典的离散PID控制器,将性能损失设为控制目标,在性能损失约束范围内,尝试降低频率以优化性能;控制稳定判定算法,通过最近几次控制的结果判断PID控制稳定性,若稳定则暂停控制以减小开销;应用负载变化检测算法,测量低开销GPU运行特征向量,设计算法比较特征向量之间的距离,以检测应用负载变化,若发生负载变化则重启PID控制。降低GPU能耗,提高GPU能效,减少碳排放。

    一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统

    公开(公告)号:CN113448425A

    公开(公告)日:2021-09-28

    申请号:CN202110810963.8

    申请日:2021-07-19

    Abstract: 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统,属于并行程序能耗优化技术领域,目的是自动地优化并行应用程序的能耗,并且不需要领域专家知识,对程序是透明的。本发明的技术要点包括:程序的阶段根据工作负载的特征,分为计算密集阶段和内存密集阶段,根据应用程序不同的实时工作负载特征,动态调整处理器功率配置,使硬件功率配置文件与运行时动态变化的程序阶段匹配;通过强化学习算法自动探索功率配置空间,根据环境反馈的奖惩信息,不断优化配置空间;最后,根据自动学习到的策略动态调整功率配置以匹配不断变化的程序阶段。本发明实现了自动且动态的并行程序能耗优化,并且该运行时优化系统的开销可以忽略不计。

    一种面向异构平台的复杂指针数据结构自动管理系统

    公开(公告)号:CN112083956A

    公开(公告)日:2020-12-15

    申请号:CN202010971038.9

    申请日:2020-09-15

    Abstract: 一种面向异构平台的复杂指针数据结构自动管理系统,涉及异构编程技术领域。本发明为了实现OpenMP Offloading程序中复杂指针数据结构在异构计算平台上的自动管理并保证数据一致性。本发明包括:信息收集模块,用于对源程序的静态分析及程序信息收集;自动转换模块,主要负责根据变量类型的不同,在适当位置修改源码并插入合适的运行时API;运行时模块,主要负责使用cudaMallocManaged( )和cudaFree( )重新实现C++标准的内存管理操作并向外提供接口。本发明可以自动管理OpenMP Offloading程序中复杂指针数据结构在CPU和GPU内存之间的内存分配、释放以及数据传输,并保证数据一致性;从而为OpenMP Offloading程序开发提供便利。

    一种异构并行程序自动移植和优化方法

    公开(公告)号:CN111966397A

    公开(公告)日:2020-11-20

    申请号:CN202010710022.2

    申请日:2020-07-22

    Abstract: 一种异构并行程序自动移植和优化方法,属于异构并行程序开发技术。本发明是为了实现CPU并行程序自动移植、在减轻开发人员工作负担的同时提高程序性能,从而解决并行指令转换、数据传输管理及优化问题。技术要点:构建异构并行程序自动移植系统的框架,异构并行程序自动移植系统用于将OpenMP CPU并行程序自动翻译为OpenMP Offloading异构并行程序;一致性状态转换形式化,保证数据一致性的前提下,优化传输操作,减少冗余数据传输;运行时库设计,运行时库用于提供自动数据传输管理和优化功能,维护每个变量内存区域一致性状态;源到源翻译器设计,翻译器用于自动转换并行指令及自动插入运行时API。该方法可以自动识别CPU并行指令并转换为加速器并行指令,提高程序性能。

Patent Agency Ranking