张量程序优化方法及装置

    公开(公告)号:CN113703768B

    公开(公告)日:2024-10-11

    申请号:CN202110788296.8

    申请日:2021-07-13

    Applicant: 清华大学

    Abstract: 本发明提供了一种张量程序优化方法及装置,方法包括:对待优化的张量程序进行划分生成线性的张量子程序;按预设的算子集合生成所述的子程序的突变程序;对子程序的突变程序中不等价的突变程序进行纠错处理以使各突变程序均与对应的子程序等价;从纠错处理后的突变程序中选取最优子程序进行拼接生成优化后的张量程序。本发明对待优化的张量程序进行划分生成线性的张量子程序,减少需要探索的搜索空间,将各子程序的突变以最优的方式组合成一个完整的张量程序,可以使张量程序的执行更加高效。

    张量程序的相似计算优化方法和装置

    公开(公告)号:CN118605931A

    公开(公告)日:2024-09-06

    申请号:CN202410533655.9

    申请日:2024-04-29

    Applicant: 清华大学

    Inventor: 翟季冬 郑立言

    Abstract: 本公开涉及一种张量程序的相似计算优化方法和装置,获取多个包括至少一个初始数据的用户请求,并确定在至少两个用户请求中都包括的初始数据为共享输入。根据共享输入、分割任务处理计算图得到的多个子图,以及每个子图对应的多个特化计算图确定至少一个任务执行方案,每个任务执行方案用于执行至少一个用户请求,其中包括每个子图对应的目标特化计算图。再根据每个任务执行方案对任务处理计算图进行相似性优化,得到用于执行对应用户请求的优化处理计算图。本公开在接收到用户请求后自动识别数据信息中的共享输入得到冗余,再通过冗余选择任务计算图中的多个子图对应的特化计算图,制定适应性的高效任务执行方案对任务计算图进行自动优化。

    一种基于集合等价变换的图挖掘优化方法及装置

    公开(公告)号:CN117271615A

    公开(公告)日:2023-12-22

    申请号:CN202311205182.1

    申请日:2023-09-18

    Applicant: 清华大学

    Inventor: 翟季冬 师天麾

    Abstract: 本申请提供了一种基于集合等价变换的图挖掘优化方法及装置,属于数据挖掘技术领域,其中一实施例的图挖掘优化方法包括:从待搜索模式图的初始搜索顺序中,确定目标搜索顺序;从目标搜索顺序对应的算法伪代码中,确定最内层负载,并将最内层负载所依赖的循环,提取至原始完美嵌套循环的最外层,得到目标完美嵌套循环;基于容斥原理,将目标完美嵌套循环等价变换为集合操作,并计算最内层负载在集合操作下的执行次数;将执行次数输入至最内层负载,并基于执行次数,对最内层负载进行优化。本申请技术方案能够将部分控制流转换为集合操作,从而获得指数级加速;同时,还能够进一步将集合操作中的交集、差集等操作进行归约来进一步加速计算过程。

    一种用于混合专家模型的并行训练方法及装置

    公开(公告)号:CN116502680B

    公开(公告)日:2023-09-19

    申请号:CN202310789205.1

    申请日:2023-06-30

    Applicant: 清华大学

    Abstract: 本申请提供了一种用于混合专家模型的并行训练方法及装置,属于深度学习技术领域,其中一实施例的并行训练方法包括:根据混合专家模型的配置信息和硬件信息,生成多组候选并行策略;在当前训练周期中,根据混合专家模型的当前负载情况,从多组候选并行策略中确定目标并行策略;确定在当前训练周期的上一个训练周期中所使用的历史并行策略;基于历史并行策略和目标并行策略中较优的一个,训练混合专家模型。本申请技术方案提供一种用于混合专家模型的自动并行训练方法,通过首先确定并行策略集合,并根据负载情况对并行策略进行切换,能够在引入专家策略的基础上有效解决负载均衡问题,提高对混合专家模型的并行训练效率。

    一种用于混合专家模型的并行训练方法及装置

    公开(公告)号:CN116502680A

    公开(公告)日:2023-07-28

    申请号:CN202310789205.1

    申请日:2023-06-30

    Applicant: 清华大学

    Abstract: 本申请提供了一种用于混合专家模型的并行训练方法及装置,属于深度学习技术领域,其中一实施例的并行训练方法包括:根据混合专家模型的配置信息和硬件信息,生成多组候选并行策略;在当前训练周期中,根据混合专家模型的当前负载情况,从多组候选并行策略中确定目标并行策略;确定在当前训练周期的上一个训练周期中所使用的历史并行策略;基于历史并行策略和目标并行策略中较优的一个,训练混合专家模型。本申请技术方案提供一种用于混合专家模型的自动并行训练方法,通过首先确定并行策略集合,并根据负载情况对并行策略进行切换,能够在引入专家策略的基础上有效解决负载均衡问题,提高对混合专家模型的并行训练效率。

    一种任务处理方法、装置、设备及存储介质

    公开(公告)号:CN114546627A

    公开(公告)日:2022-05-27

    申请号:CN202210267884.1

    申请日:2022-03-17

    Abstract: 本公开提供了一种用于强化学习任务的任务处理方法、装置、设备及存储介质,可以通过强化学习任务的任务描述信息,通过解析出所需的配置资源,进而生成针对强化学习任务的第一容器,在第一容器中创建用于处理强化学习任务的任务处理引擎,任务处理引擎包括用于任务处理中进行任务统筹的第一组件,以实现处理强化学习任务。这样,通过容器搭建任务处理引擎,将任务处理引擎置于容器中,依托于容器的单一性和隔离性,使得各任务使用的资源之间无干扰,保证任务处理的性能,而且对于任务处理引擎的维护和检测等,可以通过容器的配置等方面进行实现,在决策智能引擎之外即可完成,有效降低对于引擎底层代码的变动和入侵,降低决策智能引擎的负担。

    GPU图神经网络优化方法及装置

    公开(公告)号:CN112767230A

    公开(公告)日:2021-05-07

    申请号:CN202110222831.3

    申请日:2021-02-26

    Applicant: 清华大学

    Abstract: 提供GPU图神经网络优化方法和计算机可读介质,优化方法包括:对于GPU图神经网络模型定义,生成包括张量和操作的计算图;针对所述计算图,得到多个等价计算图;比较各个计算图的计算量,选取计算量最小的计算图;对于选取的计算图,生成对应GPU代码。可以对于选取的计算图,分析得到其每个操作所需输入的数据可视范围,以及输出的数据可视范围;解决有依赖关系的操作的数据可视范围不匹配的问题;将数据可视已匹配的操作合并为同一个GPU核函数。本发明的图神经网络优化方法可以减少图神经网络中的算子之间的数据可视范围不匹配,从而合并算子以减少内存访问;同时可以找到等价的无冗余计算的计算图,减少冗余的计算。

    利用应用程序检测计算机系统性能变化的方法和系统

    公开(公告)号:CN108415836B

    公开(公告)日:2020-12-01

    申请号:CN201810154569.1

    申请日:2018-02-23

    Applicant: 清华大学

    Abstract: 提供了利用应用程序检测系统性能变化的方法、计算装置和计算机存储介质。在应用程序的源程序中定位探针代码段,探针代码是在一段时间内被多次执行,且每次执行时的工作量固定不变的代码;在定位的探针代码段前后插入自定义的代码,这些插入的代码将在运行时采集性能数据。在源程序中定位探针代码段包括:将源程序的源代码编译成中间码;识别中间码中的探针代码;基于识别得到的中间码中的探针代码,在源程序中定位探针代码段。本发明的系统性能变化检测技术能够低开销地在程序运行中及时检测并定位系统的性能变化。

    一种云平台中计算实例的管理方法及系统

    公开(公告)号:CN103761147B

    公开(公告)日:2017-11-21

    申请号:CN201410018237.2

    申请日:2014-01-15

    Applicant: 清华大学

    Abstract: 本发明提供了一种云平台中计算实例的管理方法及系统,所述方法包括:接收单元接收用户的作业请求,存放到作业队列中;并行作业调度单元查询和管理所述作业队列中的作业,安排所述作业运行,并为不能运行的作业做计算实例预留;资源管理单元为可运行的作业安排运行用的计算实例;所述资源管理单元根据作业队列中的等待状态和正在运行的作业的运行状态申请/释放计算实例。通过本发明提供了一种云平台中计算实例的管理方法及系统,能够提高计算实例的利用率,降低作业等待时间。

    一种大规模并行程序性能预测实现方法

    公开(公告)号:CN101650687A

    公开(公告)日:2010-02-17

    申请号:CN200910092644.7

    申请日:2009-09-14

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于有代表性重放的大规模并行程序性能预测实现方法,该方法属于并行程序性能预测的技术领域,包括步骤:收集并行程序的通信序列和计算向量,分析各个进程计算的相似性并选取有代表性的进程,记录有代表性进程的通信内容,使用目标平台的一个计算节点重放有代表性进程,获取有代表性进程的顺序计算时间,用这些计算时间代替其它进程的计算时间;获取并行程序的通信记录;使用网络模拟器自动预测最终的程序性能。通过本发明能够使用很少的硬件资源,得到精确的并行程序预测性能。

Patent Agency Ranking