基于高性能平台的并行程序性能数据采集方法及装置

    公开(公告)号:CN103077080A

    公开(公告)日:2013-05-01

    申请号:CN201310005536.8

    申请日:2013-01-07

    Applicant: 清华大学

    Abstract: 本发明提出一种基于高性能平台的并行程序性能数据采集方法及装置。其中,方法包括:S101:设置控制参数;S102:运行待采集的程序;S103:获取当前运行的程序的函数调用上下文;S104:通信插装模块对程序进行插装,采集程序的通信性能数据,并对应到触发插装的程序函数调用上下文;S105:中断程序的运行;S106:通过计算采样模块对程序进行采样,采集程序的计算性能数据,并对应到采样捕获的程序函数调用上下文;S107:恢复程序的运行;S108:步骤S104到S107直到采集全部通信性能数据和计算性能数据;S109:对通信性能数据和计算性能数据进行整理并输出。根据本发明实施例的方法,通过合理的采样和插装混合的方式,避免采集开销与通信性能数据和计算性能数据量过大。

    一种大规模并行程序性能预测实现方法

    公开(公告)号:CN101650687B

    公开(公告)日:2011-03-30

    申请号:CN200910092644.7

    申请日:2009-09-14

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于有代表性重放的大规模并行程序性能预测实现方法,该方法属于并行程序性能预测的技术领域,包括步骤:收集并行程序的通信序列和顺序计算向量,分析各个进程计算的相似性并选取有代表性的进程,记录有代表性进程的通信内容,使用目标平台的一个计算节点重放有代表性进程,获取有代表性进程的顺序计算时间,用这些计算时间代替其它进程的计算时间;获取并行程序的通信记录;使用网络模拟器自动预测最终的程序性能。通过本发明能够使用很少的硬件资源,得到精确的并行程序预测性能。

    基于配置文件的并行程序自动映射实现方法

    公开(公告)号:CN101334743A

    公开(公告)日:2008-12-31

    申请号:CN200810112081.9

    申请日:2008-05-21

    Applicant: 清华大学

    Abstract: 基于配置文件的并行程序自动映射实现方法属于并行程序进程映射的技术领域,其特征是:自动获取目标平台的网络拓扑图,减少用户干预;对并行程序中每条组通信按照分解知识库中分解算法拆分成对应进程的点通信并形成组通信矩阵,把得到的组通信矩阵和并行程序中原有的点通信矩阵线性叠加得到并行程序的通信拓扑图;然后使用K-way图划分算法实现并行程序的进程映射。实验证明,通过本发明找到的最优进程映射方式,比MPI默认的进程映射方式在性能方面具有显著提高。

    一种混合精度计算方法及装置
    44.
    发明公开

    公开(公告)号:CN119668687A

    公开(公告)日:2025-03-21

    申请号:CN202411617168.7

    申请日:2024-11-13

    Applicant: 清华大学

    Inventor: 翟季冬 陈逸东

    Abstract: 本发明提供一种混合精度计算方法及装置,涉及人工智能技术领域。所述方法包括:获取混合精度计算图,根据所述混合精度计算图进行编译优化,得到优化后的混合精度计算图;对混合精度算子进行优化,并根据优化后的混合精度算子和所述优化后的混合精度计算图,计算得到混合精度计算结果。所述装置执行上述方法。本发明实施例提供的混合精度计算方法及装置,能够提高混合精度计算效率。

    深度学习程序计算图动态提取方法、装置和存储介质

    公开(公告)号:CN118838638A

    公开(公告)日:2024-10-25

    申请号:CN202410865781.4

    申请日:2024-06-28

    Applicant: 清华大学

    Inventor: 翟季冬 张晨

    Abstract: 本公开涉及一种深度学习程序计算图动态提取方法、装置和存储介质。该方法包括:逐条分析用户程序中指令的运行状态,基于指令的运行状态更新引用关系图,引用关系图用于表示运行时变量之间的引用关系,用户程序为基于高级语言编写的深度学习模型的程序;基于用户程序的引用关系图生成记录,将记录保存至缓存中,记录包括计算图、守卫函数和模拟函数;基于缓存中的一条或多条记录确定用户程序的运行结果。根据本申请实施例,可以实现在进行深度学习程序编译的过程中动态获取高质量的计算图,提升深度学习模型的运行效率。

    大语言模型对齐方法及装置、电子设备和存储介质

    公开(公告)号:CN118780393A

    公开(公告)日:2024-10-15

    申请号:CN202410867620.9

    申请日:2024-06-28

    Applicant: 清华大学

    Inventor: 翟季冬 李健文

    Abstract: 本公开涉及一种大语言模型对齐方法及装置、电子设备和存储介质,该方法包括:将大语言模型的对齐流程划分为多个阶段;确定各所述阶段的子阶段,以及各所述阶段对应的阶段内策略,所述阶段内策略表征训练时模块对硬件的共享策略以及模块的执行顺序;确定阶段间策略,所述阶段间策略表征不同所述阶段对应的并行训练方式;按照各所述阶段内策略和各所述阶段间策略对待对齐模型进行对齐,得到目标模型。在对齐过程中,为各阶段确定出对应的阶段内策略、阶段间策略,考虑了上下文切换过程中可能的效率优化可能性,以及并行训练方式转换过程中可能存在的效率优化的机会,提高了对齐训练的效率和硬件资源的利用率。

    一种分布式处理系统、任务调度方法、参数确定方法

    公开(公告)号:CN118394495A

    公开(公告)日:2024-07-26

    申请号:CN202410254588.7

    申请日:2024-03-06

    Applicant: 清华大学

    Inventor: 翟季冬 何家傲

    Abstract: 本发明提供一种分布式处理系统、任务调度方法、参数确定方法,所述分布式处理系统包括第一模块和第二模块,第一模块与每个第二模块通信连接;第一模块包括神经网络加速器,第二模块包括至少一个处理单元;神经网络加速器用于根据序列生成任务的输入特征向量计算获得第一特征向量并将第一特征向量发送给所至少一个处理单元;神经网络加速器还用于根据第二特征向量计算获得对应的输出结果;所述至少一个处理单元用于存储第一特征向量,根据第一特征向量计算获得第二特征向量并将所述第二特征向量发送给所述神经网络加速器。本发明实施例提供的分布式处理系统、任务调度方法、参数确定方法,提高了分布式处理系统的计算效率。

    编译方法及编译装置
    48.
    发明公开

    公开(公告)号:CN116627427A

    公开(公告)日:2023-08-22

    申请号:CN202310722888.9

    申请日:2023-06-16

    Applicant: 清华大学

    Abstract: 公开了一种编译方法、编译装置、电子设备、计算机可读存储介质以及计算机程序产品。所述方法包括:获取待编译的张量程序中的计算图,并将所述计算图转换为初始中间表示;基于变换规则集合所限定的搜索空间,确定与所述中间表示等价的多个等价中间表示;基于预设算子的中间表示与所述等价中间表示之间的距离,利用所述多个等价中间表示,确定目标中间表示;以及基于所述目标中间表示,确定所述计算图对应的可执行代码。

    基于指令重排的量子程序执行方法及装置

    公开(公告)号:CN113269325B

    公开(公告)日:2022-11-25

    申请号:CN202110629719.1

    申请日:2021-06-07

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于指令重排的量子程序执行方法及装置,该方法包括:获取预先配置的指令交换规则;根据指令交换规则,确定对待执行量子程序中指令顺序进行重排的多个指令重排方案;利用代价函数评估各个指令重排方案对应的保真度,并根据各个指令重排方案对应的保真度,从多个指令重排方案中选择一个指令重排方案,作为待执行指令重排方案;根据待执行指令重排方案,对待执行量子程序中指令顺序进行重排。本发明能够缓解量子程序执行时由于串扰错误对其保真度的影响。

    一种数据处理方法、装置及存储介质

    公开(公告)号:CN114972955A

    公开(公告)日:2022-08-30

    申请号:CN202210646271.9

    申请日:2022-06-08

    Applicant: 清华大学

    Abstract: 本公开涉及一种数据处理方法、装置及存储介质,其中,该方法可以包括获取深度学习模型中的待处理数据组;确定与待处理数据组中各待处理数据相匹配的模拟方式,模拟方式用于基于不同于待处理数据的数据类型的其他数据类型,表示待处理数据的数据类型;根据各待处理数据相匹配的模拟方式对各待处理数据进行处理,生成各待处理数据对应的模拟数据,模拟数据通过所述其他数据类型表示;对各待处理数据对应的模拟数据进行处理,得到数据处理结果。通过本公开,在保证数据处理精度的情况下,进行数据加速处理,提供了高效计算能力,有效提升了加速器的性能;同时,扩展了加速器的使用场景,有效降低了对加速器的硬件要求。

Patent Agency Ranking