-
公开(公告)号:CN119668894A
公开(公告)日:2025-03-21
申请号:CN202411635336.5
申请日:2024-11-15
IPC: G06F9/54 , G06F9/50 , G06N3/0455 , G06N5/04 , G06N3/063
Abstract: 本发明提供一种向量量化大语言模型的算子融合机制分配方法与系统,所述方法包括以下步骤:获取布局数据,其中,布局数据包括解量化数据布局以及计算内核所需布局;基于布局数据计算得到数据混洗次数,并基于数据混洗次数与预设阈值进行比较,以动态响应决策机制,当数据混洗次数小于预设阈值,则采用第一决策机制,第一决策机制至少包括寄存器级别算子融合机制;当数据混洗次数大于或者等于预设阈值,则采用第二决策机制,第二决策机制至少包括共享内存级别算子融合机制。本发明的向量量化大语言模型的算子融合机制分配方法与系统,解决了数据在共享内存和寄存器之间频繁传输导致的带宽瓶颈和延迟问题,从而实现了更高效的解量化与计算融合。
-
公开(公告)号:CN116015552B
公开(公告)日:2025-03-07
申请号:CN202211700534.6
申请日:2022-12-28
Applicant: 上海交通大学
Abstract: 本发明提供了一种针对跨域数据中心的纠删码方法、系统及可读存储介质,方法包括以下步骤:S1、使用二层编码的编码方式,将k个数据块分成p个局部校验分组,并使用MSR编码在每个局部校验分组中生成l个局部校验块,然后使用RS编码生成g个全局校验块,将所有的全局校验块组成一个全局校验分组,和局部校验分组一起共生成p+1个分组;S2、对p+1个分组在N个数据中心内的放置策略进行建模,求解访问延时和恢复传输延时的优化问题,得到分组放置概率矩阵P;S3、根据分组放置概率矩阵P把p+1个块分组放置在N个数据中心内。本发明通过使用MSR和RS的双层编码,并进行放置策略优化,有效解决了数据恢复过程中跨数据中心传输流量大和用户访问延时高的问题。
-
公开(公告)号:CN119415253A
公开(公告)日:2025-02-11
申请号:CN202411458241.0
申请日:2024-10-18
Applicant: 上海交通大学
IPC: G06F9/50 , G06F12/02 , H04L67/1097 , G06F18/25
Abstract: 一种多后端分离式内存系统及其优化控制方法,包括:智能远内存多后端管理控制模块和多后端远内存交换器,其中:智能远内存多后端管理控制模块对发生页面错误并触发页面交换的调用进行分析和处理,得到切换指令信息和参数调控指令信息;多后端远内存交换器接收并执行切换指令信息和参数调控指令信息,在分离式内存架构和多后端远内存软件系统上运行应用,并在运行结束后释放资源。本发明通过支持多个异构的远端的分离式内存后端的内存交换策略和系统架构,实现多路远内存访问并行以提升数据吞吐量的同时,分析应用特点并实现智能后端切换和数据交换参数调整,能够实现多个内存交换后端设备的并行访问、远内存数据访问通路的细粒度参数配置、多个内存交换后端的实时切换、智能化的远内存访问通路的控制和管理方法。
-
公开(公告)号:CN118689486A
公开(公告)日:2024-09-24
申请号:CN202410731720.9
申请日:2024-06-06
Applicant: 上海交通大学
IPC: G06F8/41
Abstract: 本发明公开了基于现场可编程逻辑门阵列的多层中间表示的编译方法,该方法包括:接收用户输入的算法,并通过编译器的编译流程,将该输入算法划分为三层不同抽象层次的中间表示,包括依赖图中间表示、多面体中间表示和带有硬件描述语言HLS原语属性的MLIR仿射方言中间表示;实施自动设计空间探索DSE;将优化后的MLIR仿射方言中间表示发送至编译器后端,生成可综合的HLS C代码,其中所有的HLS属性均转换为对应的HLS原语,以供FPGA加速器使用。该方法旨在解决现有编译框架在FPGA编程中的不足,通过引入多层中间表示技术,实现了编译过程的优化和简化,从而降低了FPGA编程的难度。
-
公开(公告)号:CN118296199A
公开(公告)日:2024-07-05
申请号:CN202410384094.0
申请日:2024-03-29
Applicant: 上海交通大学 , 脸萌有限公司 , 北京字跳网络技术有限公司
IPC: G06F16/903 , G06F16/901 , G06F9/48 , G06F9/50
Abstract: 本公开实施例提供一种图数据处理方法、设备及存储介质,在图形处理器中获取针对图结构的查询请求,以请求在图结构中基于指定的起始节点查询子图结构,并对查询请求依次生成采样任务;在图形处理器的任一线程块中调用图形处理器中的计算引擎选择与采样任务的任务量匹配的目标采样器执行采样任务,以在采样任务指定的起始节点基础上选择下一目标邻居节点,并作为新的起始节点生成新采样任务;根据依次选择的目标邻居节点形成子图结构作为查询请求的查询结果。本公开将图形处理器线程块的线程组织成不同的采样器,动态随机游走的查询请求的采样任务根据任务量选择目标采样器,实现资源动态分配,提高图形处理器执行动态随机游走的负载均衡和并发度。
-
公开(公告)号:CN115061775B
公开(公告)日:2024-06-04
申请号:CN202210590110.2
申请日:2022-05-26
Applicant: 上海交通大学
IPC: G06F9/455
Abstract: 本发明提供一种基于公有云的应用程序协同配置系统、方法及设备,所述基于公有云的应用程序协同配置系统包括:硬盘IO带宽分配模块,用于周期性地监视每个虚拟机的IO带宽使用情况,并基于虚拟机的IO带宽使用情况分配调整虚拟机的带宽;IO机制参数调优模块,用于基于虚拟机的带宽调整虚拟机的客户操作系统中的IO机制参数。本发明帮助各个IO密集型应用程序取得更高的性能,以此实现整体吞吐提高,本发明建立了迭代式软硬件协同配置运作框架,设计了无需入侵用户应用程序的参数调优方法,在无需升级硬件设备与不增加云服务提供商额外负担的提前下,提高了多租户公有云的整体吞吐。
-
公开(公告)号:CN116302481B
公开(公告)日:2024-05-14
申请号:CN202310018597.1
申请日:2023-01-06
Applicant: 上海交通大学
Abstract: 一种基于稀疏知识图谱链接预测的资源分配方法及系统,通过对集群待调度执行的负载进行分析得到在不同资源配置下任务的运行时间并离散化后构建并更新任务‑资源配置知识图谱,得到稀疏知识图谱;通过残差关系图神经网络对稀疏知识图谱进行表征学习,得到知识图谱中每个资源配置和负载节点和边的向量表征,再利用多通道三维卷积TransE算法(MCTE)对负载节点进行最适资源预测并根据预测得到的资源配置,为负载分配相应的资源和服务器。本发明能够对负载进行更高效的调度,更有效地保证任务的QoS以及提高数据中心的资源利用率。
-
公开(公告)号:CN117077161B
公开(公告)日:2024-05-03
申请号:CN202310954534.7
申请日:2023-07-31
Abstract: 本发明提供一种基于动态规划求解的隐私保护深度模型构建方法与系统,其中,所述方法包括:获取初始神经网络模型,其中,所述初始神经网络模型包括深度神经网络模型;基于所述初始神经网络模型做节点分割得到不同的分割子图;基于所述分割子图利用预设的搜索方式进行局部调度得到当前分割子图对应的备选项;基于所述备选项进行全局调度,以利用动态规划得到不同分割子图对应备选项的目标组合,基于所述目标组合输出所述隐私保护深度模型。本发明使用图分析的方法对一个神经网络模型的计算图分析,并基于动态规划的方法对其进行安全性编译,实现在保证安全性的前提下得到性能最优的隐私保护深度模型。
-
公开(公告)号:CN117744728A
公开(公告)日:2024-03-22
申请号:CN202311750689.5
申请日:2023-12-19
Applicant: 上海交通大学
IPC: G06N3/065 , G06N3/045 , G06N3/0495 , G06F18/22
Abstract: 一种支持动态稀疏和静态稀疏硬件加速器,包括:数据切分和重排序模块,用于对输入的数据进行切分,以适应空间加速器硬件大小;空间加速器模块,用于支持稀疏注意力机制的运算;权重加和模块,用以支持混合注意力模式的切分,将分块的输入数据计算得到的结果进行合并,得到最终的输出;模式匹配模块包括矩阵乘法运算模块,双调排序器和滑动窗口比较器,用于进行混合注意力模式匹配。本发明同时支持静态稀疏方法和动态稀疏方法,可以进行高效的静态和动态稀疏注意力计算。节省了至少6.1倍的计算量,同时保持输出结果的准确性。
-
公开(公告)号:CN117077161A
公开(公告)日:2023-11-17
申请号:CN202310954534.7
申请日:2023-07-31
Abstract: 本发明提供一种基于动态规划求解的隐私保护深度模型构建方法与系统,其中,所述方法包括:获取初始神经网络模型,其中,所述初始神经网络模型包括深度神经网络模型;基于所述初始神经网络模型做节点分割得到不同的分割子图;基于所述分割子图利用预设的搜索方式进行局部调度得到当前分割子图对应的备选项;基于所述备选项进行全局调度,以利用动态规划得到不同分割子图对应备选项的目标组合,基于所述目标组合输出所述隐私保护深度模型。本发明使用图分析的方法对一个神经网络模型的计算图分析,并基于动态规划的方法对其进行安全性编译,实现在保证安全性的前提下得到性能最优的隐私保护深度模型。
-
-
-
-
-
-
-
-
-