-
公开(公告)号:CN115599956A
公开(公告)日:2023-01-13
申请号:CN202110766780.0
申请日:2021-07-07
Applicant: 清华大学(CN)
IPC: G06F16/901 , G06F16/903
Abstract: 一种数据处理方法、执行工作站、分布式计算系统和计算机可读存储介质。该数据处理方法包括:将具有预定数据格式的聚合子拆分为多个聚合子片段;将多个聚合子片段中的第一部分聚合子片段发送至其它执行工作站用于在其它执行工作站上进行归约;从其它执行工作站接收其它执行工作站产生的与多个聚合子片段中的第二部分聚合子片段对应的聚合子片段并将其与第二部分聚合子片段进行归约以更新第二部分聚合子片段;重新确定第一部分聚合子片段和第二部分聚合子片段并执行上述发送、接收和归约,直至多个聚合子片段的每一个都被发送或完成所有归约;以及将完成所有归约的聚合子片段发送至管理工作站。
-
公开(公告)号:CN114327479B
公开(公告)日:2025-03-18
申请号:CN202111618375.0
申请日:2021-12-27
Applicant: 清华大学
Abstract: 一种用于大数据的数据处理方法和数据处理装置。该数据处理方法包括:获取用原生编程语言编写的主程序;在原生系统中将主程序进行编译并生成可加载模块,其中,可加载模块包括第一部分程序和第二部分程序;由原生系统中运行的虚拟机加载可加载模块,并且将第二部分程序转换为预定虚拟机大数据处理体系支持的虚拟机代码;以及由虚拟机运行可加载模块包含的主程序,其中,虚拟机构建可加载模块对应的有向无环图程序,然后运行有向无环图程序,将第一部分程序交由原生系统运行,将转换后的第二部分程序交由预定虚拟机大数据处理体系运行。该数据处理方法可以在融入现有虚拟机大数据软件生态的前提下构建高性能大数据处理框架。
-
公开(公告)号:CN115599507B
公开(公告)日:2024-11-05
申请号:CN202110767689.0
申请日:2021-07-07
Applicant: 清华大学
Abstract: 一种数据处理方法、执行工作站、电子设备和计算机可读存储介质。该数据处理方法包括:从管理工作站接收分配给多个处理核中的每个处理核的任务;多个处理核中的每个处理核分别执行被分配的任务,并在每执行完一个任务后生成一个具有预定数据结构的任务结果;将每个处理核每次执行生成的任务结果合并到存储在执行工作站的内部存储器中的共享任务结果中,共享任务结果与每个处理核每次执行生成的任务结果具有相同的数据结构;以及在满足预定条件时,将共享任务结果用于与其它执行工作站的任务结果进行归约。该方法将同一执行工作站中的任务结果在与其它执行工作站中的任务结果进行归约之前先在本执行工作站中合并,从而降低了存储、处理和通信开销。
-
公开(公告)号:CN115599956B
公开(公告)日:2024-09-24
申请号:CN202110766780.0
申请日:2021-07-07
Applicant: 清华大学
IPC: G06F16/901 , G06F16/903
Abstract: 一种数据处理方法、执行工作站、分布式计算系统和计算机可读存储介质。该数据处理方法包括:将具有预定数据格式的聚合子拆分为多个聚合子片段;将多个聚合子片段中的第一部分聚合子片段发送至其它执行工作站用于在其它执行工作站上进行归约;从其它执行工作站接收其它执行工作站产生的与多个聚合子片段中的第二部分聚合子片段对应的聚合子片段并将其与第二部分聚合子片段进行归约以更新第二部分聚合子片段;重新确定第一部分聚合子片段和第二部分聚合子片段并执行上述发送、接收和归约,直至多个聚合子片段的每一个都被发送或完成所有归约;以及将完成所有归约的聚合子片段发送至管理工作站。
-
公开(公告)号:CN117454944A
公开(公告)日:2024-01-26
申请号:CN202311550235.3
申请日:2023-11-20
Applicant: 清华大学
IPC: G06N3/0495
Abstract: 提供分层确定量化神经网络模型的量化模式的方法、系统、电子设备和非暂时存储介质。该方法包括:按神经网络模型的层为单位、利用多个量化模式中的一个量化模式来量化神经网络模型的一层的输入向量和该层的权重参数,其中所述神经网络模型是利用第一数据集训练来得到的;利用第二数据集推理得到量化所述层的所述一个量化模式导致的所述神经网络模型的损失函数的所述层的变化量;如果确定所述变化量为负,则确定所述一个量化模式作为量化所述层的量化模式。
-
公开(公告)号:CN115599507A
公开(公告)日:2023-01-13
申请号:CN202110767689.0
申请日:2021-07-07
Applicant: 清华大学(CN)
Abstract: 一种数据处理方法、执行工作站、电子设备和计算机可读存储介质。该数据处理方法包括:从管理工作站接收分配给多个处理核中的每个处理核的任务;多个处理核中的每个处理核分别执行被分配的任务,并在每执行完一个任务后生成一个具有预定数据结构的任务结果;将每个处理核每次执行生成的任务结果合并到存储在执行工作站的内部存储器中的共享任务结果中,共享任务结果与每个处理核每次执行生成的任务结果具有相同的数据结构;以及在满足预定条件时,将共享任务结果用于与其它执行工作站的任务结果进行归约。该方法将同一执行工作站中的任务结果在与其它执行工作站中的任务结果进行归约之前先在本执行工作站中合并,从而降低了存储、处理和通信开销。
-
公开(公告)号:CN114327479A
公开(公告)日:2022-04-12
申请号:CN202111618375.0
申请日:2021-12-27
Applicant: 清华大学
Abstract: 一种用于大数据的数据处理方法和数据处理装置。该数据处理方法包括:获取用原生编程语言编写的主程序;在原生系统中将主程序进行编译并生成可加载模块,其中,可加载模块包括第一部分程序和第二部分程序;由原生系统中运行的虚拟机加载可加载模块,并且将第二部分程序转换为预定虚拟机大数据处理体系支持的虚拟机代码;以及由虚拟机运行可加载模块包含的主程序,其中,虚拟机构建可加载模块对应的有向无环图程序,然后运行有向无环图程序,将第一部分程序交由原生系统运行,将转换后的第二部分程序交由预定虚拟机大数据处理体系运行。该数据处理方法可以在融入现有虚拟机大数据软件生态的前提下构建高性能大数据处理框架。
-
公开(公告)号:CN117474052A
公开(公告)日:2024-01-30
申请号:CN202311552606.1
申请日:2023-11-20
Applicant: 清华大学
IPC: G06N3/0495
Abstract: 提供分层确定量化神经网络模型的量化模式的方法、系统、电子设备和非暂时存储介质。方法包括按神经网络模型的层为单位利用多个量化模式中的第j种量化模式来量化神经网络模型的第i层的输入向量和该层的权重参数,其中所述神经网络模型是利用第一数据集训练来得到的,其中i,j是正整数;利用第二数据集推理得到影响矩阵P[i][j],其中所述影响矩阵P[i][j]表示用来量化所述第i层的所述第j种量化模式对所述神经网络模型的损失函数的影响;求解在代价矩阵W[i][j]在所有层的总和小于代价限制的情况下、使得所述影响矩阵P[i][j]在所有层的总和最小的第j种量化模式作为第i层的量化所采用的量化模式,其中所述代价矩阵W[i][j]表示第j种量化模式作为第i层的量化所消耗的计算代价。
-
-
-
-
-
-
-