-
公开(公告)号:CN1892602A
公开(公告)日:2007-01-10
申请号:CN200510080339.8
申请日:2005-07-01
Applicant: 中国科学院计算技术研究所
IPC: G06F9/45
Abstract: 本发明公开了一种二进制翻译中库函数调用的处理方法,尽可能地对源X86二进制程序中的库函数调用进行识别和提升;对于可包装库函数,用目标机本地的约定进行传参和返回值处理,这样省去了对X86参数压栈和从堆栈中取返回值的模拟,避免了频繁的内存操作,使用本地的库函数,也不会因为翻译PLT、fixup函数、库函数的源二进制代码造成代码膨胀导致的性能损失,提高了程序执行的效率;对于PLT短路库函数,虽然继续维护X86模拟堆栈,但是控制流不进入PLT和动态链接器的fixup函数,即不翻译PLT和动态链接器的fixup函数的源二进制代码,避免了因为翻译PLT、fixup函数造成代码膨胀导致的性能损失,控制流直接进入库函数的本地码,也能够较好地提高程序执行的效率。
-
公开(公告)号:CN1746850A
公开(公告)日:2006-03-15
申请号:CN200410074532.6
申请日:2004-09-07
Applicant: 中国科学院计算技术研究所
IPC: G06F9/45
Abstract: 本发明公开了一种二进制翻译中对X86中浮点运算的处理方法,包括以下步骤:在运行时环境中设置一个浮点栈,用于仿真X86中的物理浮点栈;通过浮点寄存器映射的处理和归一方法依次对源二进制程序中的每个基本块进行处理。本发明通过用目标机器的寄存器来映射X86的源寄存器,保证了X86的浮点运算在目标机器上也是由寄存器来实现,确保运算的效率;采用归一的方法,确保每个基本块的入口满足每次top的值相同的假设,从本质上来讲,将Intel的运行过程中对投机假设的判别,用归一的方法进行了保证。本发明使得基本块不需要每次都去判别是否投机假设成立,省去了这一部分开销,提高了系统翻译效率,从而提高了系统性能。
-
公开(公告)号:CN118796196A
公开(公告)日:2024-10-18
申请号:CN202410034003.0
申请日:2024-01-09
Applicant: 中国移动通信有限公司研究院 , 中国科学院计算技术研究所 , 中国移动通信集团有限公司
Abstract: 本申请实施例提供一种编译方法、编译装置、处理设备、芯片及计算机可读存储介质,所述方法包括:获取第一源代码;所述第一源代码为通过第一编程语言编程的源代码;所述第一编程语言为具备领域特定语言DSL的编程语言;提取所述第一源代码中的DSL;所述DSL表征所述第一源代码中的线性代数计算过程;将所述DSL转换为第一中间表示;对所述第一中间表示进行优化操作,生成第二中间表示;所述第二中间表示是所述第一中间表示的等价中间表示,所述第二中间表示的计算量小于所述第一中间表示的计算量;将所述第二中间表示转换为第一代码;所述第一代码的编码语言为所述第一编码语言;将所述第一代码与所述第一源代码进行结合,生成第二源代码。
-
公开(公告)号:CN117742679A
公开(公告)日:2024-03-22
申请号:CN202311724858.8
申请日:2023-12-14
Applicant: 中国科学院计算技术研究所
IPC: G06F8/30 , G06F8/41 , G06N3/0442 , G06N3/08
Abstract: 本发明提供了一种基于深度神经网络的内核融合方法,包括:通过编译框架将源码分别编译为主机端中间代码文件和设备端中间代码文件,将上述两个文件输入到融合框架,生成融合后的设备端中间代码文件;将融合后的设备端中间代码文件进行优化和编译,得到带有设备端信息的主机端中间代码文件;将带有设备端信息的主机端中间代码文件和设备端中间代码文件输入到融合框架,生成融合后的主机端中间代码文件;将融合后的主机端中间代码文件进行优化和编译,得到对应的可执行文件。本发明还提供一种基于深度神经网络的内核融合系统、存储介质及电子设备。借此,本发明能够降低性能开销,提高并行资源利用率,从而提升深度神经网络系统的推理性能。
-
公开(公告)号:CN116521235A
公开(公告)日:2023-08-01
申请号:CN202310303174.4
申请日:2023-03-24
Applicant: 中国科学院计算技术研究所
IPC: G06F9/38 , G06F15/80 , G06F12/0811
Abstract: 本发明提出一种支持弹性向量执行的数据处理方法,包括:将主程序划分为多个子程序,选取该子程序中的向量化循环子程序为目标子程序,获取该目标子程序的计算访存比;依据该计算访存比对处理器的核分配SIMD计算通道,并运行该主程序;当任一目标子程序的计算访存比发生变化时,预测该目标子程序的性能上限,根据该性能上限对该核重新分配SIMD计算通道后,继续运行该主程序。本发明还提出一种支持弹性向量执行的数据处理系统,以及一种支持弹性向量执行的数据处理装置。
-
公开(公告)号:CN112130848B
公开(公告)日:2022-06-14
申请号:CN202011013688.9
申请日:2020-09-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出了一种面向便笺式存储器的带宽感知循环分块优化技术,该技术通过协调考虑带宽利用率和片上存储器容量来增强传统的循环分块优化方法。根据针对DMA的测试分析得到的带宽行为模型,创建决策树以针对不同类型的数据访问模式,从而选择最佳的数据提取操作。利用运行时循环分块框架来确定最佳分块大小,并在运行时生成分块代码。并且,本发明还通过利用参数引导的IPA来寻找不规则访问的静态分块机会,并使用冗余计算来节省SPM容量,从而增强循环分块的效果。
-
公开(公告)号:CN112130848A
公开(公告)日:2020-12-25
申请号:CN202011013688.9
申请日:2020-09-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出了一种面向便笺式存储器的带宽感知循环分块优化技术,该技术通过协调考虑带宽利用率和片上存储器容量来增强传统的循环分块优化方法。根据针对DMA的测试分析得到的带宽行为模型,创建决策树以针对不同类型的数据访问模式,从而选择最佳的数据提取操作。利用运行时循环分块框架来确定最佳分块大小,并在运行时生成分块代码。并且,本发明还通过利用参数引导的IPA来寻找不规则访问的静态分块机会,并使用冗余计算来节省SPM容量,从而增强循环分块的效果。
-
公开(公告)号:CN111813540A
公开(公告)日:2020-10-23
申请号:CN202010474453.3
申请日:2020-05-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于图划分的TCAM的分配方法,包括:将程序执行流程的控制流程图转换为条件变量图;依据效用值贪心地从当前条件变量图的备选节点中选取下一级子图根节点,直至获得最终子图根节点的集合;基于所述最终子图根节点的集合将所述条件变量图划分为若干最终子图;以及依据所述最终子图为所述程序执行流程分配TCAM。
-
公开(公告)号:CN104184685B
公开(公告)日:2018-05-29
申请号:CN201310201873.4
申请日:2013-05-27
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
IPC: H04L12/927
Abstract: 本发明实施例提供一种数据中心资源分配方法、装置及系统。本发明数据中心资源分配方法,包括:在为第一任务分配数据中心资源时,确定将第一数据中心资源分配给第一任务后,第一任务的服务质量QoS以及正在多核芯片上处理的任务的QoS是否均能够保证;若均能够保证,则将数据中心资源分配给第一任务。以解决现有技术中当将一个任务分配到一个多核芯片上时,造成该多核芯片上已经处理的有QoS要求的任务的QoS以及该任务自身的QoS不能保证的问题,实现了为任务分配资源后能够保证有QoS要求的任务的QoS要求,并且同时提高了多核芯片的资源利用率。
-
公开(公告)号:CN103970719B
公开(公告)日:2017-02-22
申请号:CN201310036087.3
申请日:2013-01-30
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
IPC: G06F17/15
Abstract: 本发明实施例提供一种拟合方法及拟合装置,涉及计算机领域,能够提高拟合灵活性和拟合精度。该方法包括:根据预设数据特性将待拟合数据集中的数据分成n组待拟合数据,n≥2;对n组待拟合数据中满足预设拟合条件的待拟合数据进行拟合得到k个拟合函数,1≤k≤n;获取最终拟合函数,所述最终拟合函数为所述k个拟合函数的乘积。本发明实施例提供的一种拟合方法及拟合系统用于拟合。
-
-
-
-
-
-
-
-
-