一种基于图划分的TCAM的分配方法

    公开(公告)号:CN111813540B

    公开(公告)日:2023-06-06

    申请号:CN202010474453.3

    申请日:2020-05-29

    Abstract: 本发明提供一种基于图划分的TCAM的分配方法,包括:将程序执行流程的控制流程图转换为条件变量图;依据效用值贪心地从当前条件变量图的备选节点中选取下一级子图根节点,直至获得最终子图根节点的集合;基于所述最终子图根节点的集合将所述条件变量图划分为若干最终子图;以及依据所述最终子图为所述程序执行流程分配TCAM。

    基于代码融合编译框架的OpenCL编译器设计方法和系统

    公开(公告)号:CN109933327B

    公开(公告)日:2021-01-08

    申请号:CN201910106880.3

    申请日:2019-02-02

    Abstract: 本发明涉及一种基于代码融合编译框架的OpenCL编译器设计方法和系统,包括:基于共享内存提供主机‑内核代码融合编译框架,在编译器的中间表示——AST层上实现不同端代码的融合;WII‑CFG图用来刻画Kernel代码被实例化成众多线程后,线程之间的指令执行行为,亦即分析工作组内平台特征敏感的程序执行行为;主机‑内核代码联合的数据流分析,用来发掘跨越主机端或内核端的数据流关系以及线程之间的数据流关系,以分析两端代码之间的数据相关性;基于前述分析实施针对性的代码优化,并生成汇编代码进而结束编译过程。本发明能面向不同加速设备,针对主机端代码、Kernel代码同时开展分析,充分发掘线程间优化机会,使得OpenCL程序获得良好的性能可移植性。

    一种数据处理方法及相关设备

    公开(公告)号:CN104731569B

    公开(公告)日:2018-04-10

    申请号:CN201310719857.4

    申请日:2013-12-23

    CPC classification number: G06F9/541

    Abstract: 本发明实施例公开了一种数据处理方法及相关设备,实现Hadoop从节点设备中对数据自动转换数据格式和自动拼接,简化程序员的编程工作,有利于后续优化MapReduce架构。该方法主要包括:数据预处理器从所述CPU的第一缓冲区读取元数据;所述数据预处理器根据所述元数据所指示的存储地址从所述第一缓冲区读取所述数据集合的数据;所述数据预处理器根据预设解析函数,将所述数据集合的数据转换成所述预设解析函数所指示的数据格式,并将转换后的数据集合生成数据块后存储在所述CPU的第二缓冲区,以使得所述数据拼接器从所述第二缓冲区读取所述数据块拼接到所述GPU。

    一种程序运行性能分析方法及装置

    公开(公告)号:CN103902443B

    公开(公告)日:2017-04-26

    申请号:CN201210576264.2

    申请日:2012-12-26

    CPC classification number: G06F11/3409 G06F11/3447

    Abstract: 本发明提供一种程序运行性能分析方法及装置,涉及网络技术领域,能够对多道同时运行的程序各自的性能干扰进行分析,从而提高程序运行过程当中资源调度的效率和硬件资源的利用率,该方法包括:在预设的程序集中获取每个程序在运行状态下的特征向量;获取预设的程序集中至少两个共同运行的程序各自的性能干扰参数,该性能干扰参数为预设的程序集中至少两个共同运行的程序的特征向量相互作用时至少两个共同运行的程序各自性能的下降率;对至少两个共同运行的程序的特征向量与至少两个共同运行的程序的性能干扰参数进行曲线拟合,生成性能干扰函数模型。本发明应用在程序性能干扰分析中。

    数据处理方法和中心节点
    15.
    发明公开

    公开(公告)号:CN105335135A

    公开(公告)日:2016-02-17

    申请号:CN201410331030.0

    申请日:2014-07-14

    Inventor: 刘颖 崔慧敏

    CPC classification number: G06F9/44

    Abstract: 本发明实施例提供一种数据处理方法和中心节点,中心节点根据用户提供的采用MapReduce计算框架编写的第一循环函数,生成第二循环函数、启动计算函数和第二拷贝函数,其中,第二循环函数用于循环调用第一拷贝函数将计算节点中需要GPU处理的多个数据记录从计算节点的内存拷贝到GPU的显存中,启动计算函数中的Map计算函数用于指示GPU对GPU负责处理的数据记录进行处理,第二拷贝函数用于将GPU对多个数据记录的计算结果从GPU的显存中拷贝至计算节点的内存中,从而实现将适用于在CPU中运行的代码自动生成适用于在GPU中运行的代码,使Hadoop编程框架适用于在混合集群系统进行数据处理。

    一种程序运行性能分析方法及装置

    公开(公告)号:CN103902443A

    公开(公告)日:2014-07-02

    申请号:CN201210576264.2

    申请日:2012-12-26

    CPC classification number: G06F11/3409 G06F11/3447

    Abstract: 本发明提供一种程序运行性能分析方法及装置,涉及网络技术领域,能够对多道同时运行的程序各自的性能干扰进行分析,从而提高程序运行过程当中资源调度的效率和硬件资源的利用率,该方法包括:在预设的程序集中获取每个程序在运行状态下的特征向量;获取预设的程序集中至少两个共同运行的程序各自的性能干扰参数,该性能干扰参数为预设的程序集中至少两个共同运行的程序的特征向量相互作用时至少两个共同运行的程序各自性能的下降率;对至少两个共同运行的程序的特征向量与至少两个共同运行的程序的性能干扰参数进行曲线拟合,生成性能干扰函数模型。本发明应用在程序性能干扰分析中。

    一种动态二进制翻译中的翻译方法

    公开(公告)号:CN1746849A

    公开(公告)日:2006-03-15

    申请号:CN200410069182.4

    申请日:2004-09-10

    Abstract: 本发明涉及一种动态二进制翻译中的翻译方法,包括以下步骤:统计寻找翻译代码中频繁出现并影响翻译质量的翻译代码片断;找出上述代码片断中的指令模式;确定指令模式的翻译对应关系;扫描待翻译的基本块,寻找所述指令模式,找到,匹配成功,给所述指令模式做标记,否则,匹配未成功,结束扫描;翻译基本块,翻译时遇到标记的指令时,按照所述指令模式的翻译对应关系翻译,否则,按照常规翻译。本发明通过指令模式匹配来翻译基本块,降低代码重复优化导致的系统开销,提高翻译质量和效果,从而提高了动态二进制翻译的性能。

    面向密度泛函计算的集群任务调度方法与装置

    公开(公告)号:CN119512711A

    公开(公告)日:2025-02-25

    申请号:CN202411575350.0

    申请日:2024-11-06

    Abstract: 本发明提出一种面向密度泛函计算的集群任务调度方法,包括:预估密度泛函计算的每个集群任务的执行时间,基于该执行时间将该集群任务划分为大型任务和小型任务;将任务特征允许分解的大型任务分解为多个小型任务;任务运行时,将所有该小型任务打包为多个任务包,并以先大型任务后任务包的顺序,进行任务分配及运行;其中,该任务包满足所有执行节点的任务进程的总执行时间都处于一个渐进减小的时间范围。本发明的集群任务调度方法可以良好地应对背景技术所述的批量任务特点,具有基于任务负载评估、分解和重排序的负载均衡调度、变长任务组打包、错误容忍机制、分层扩展的大规模可扩展性和较高的并行效率。

    用于神经网络推理的跨算子边界优化的编译方法及编译器

    公开(公告)号:CN117742718A

    公开(公告)日:2024-03-22

    申请号:CN202311724854.X

    申请日:2023-12-14

    Abstract: 本发明提出一种用于神经网络推理的跨算子边界优化的编译方法和编译器,包括:以神经网络模型计算程序中每个算子的张量表达式作为节点,算子间的张量依赖关系为边,构建计算图;提取图中张量信息,并提取张量表达式的输入输出张量间元素的依赖信息;确定划分张量表达式的算子为割点,将有向无环计算图划分为多个子图,每个子图对应生成一个计算核;为计算核kernel中每一个张量表达式生成一个调度,把计算核kernel中所有调度合并得到统一调度,通过插入重排和同步指令,合并每个计算核kernel的统一调度,得到神经网络模型计算程序的调度程序,以生成可执行的二进制文件,CPU和/或GPU执行二进制文件,得到神经网络模型计算结果。

    在异构处理单元上执行深度神经网络的方法

    公开(公告)号:CN111738434A

    公开(公告)日:2020-10-02

    申请号:CN202010493830.8

    申请日:2020-06-03

    Abstract: 本发明提供一种在异构处理单元上执行深度神经网络的方法,包括:通过算子性能模型预测深度神经网络中各个算子在不同异构处理单元上的运行时间和功耗,其中,所述算子性能模型是以不同算子和不同异构处理单元的组合为输入数据,以所述算子在所述不同异构处理单元上的运行时间和功耗为输出数据,通过训练获得;至少基于所述深度神经网络的结构图以及所述算子在所述不同异构处理单元上的运行时间和/或功耗确定所述算子的分配策略;以及依据所述算子的分配策略将所述算子分配到对应的异构处理单元并执行所述深度神经网络。

Patent Agency Ranking