-
公开(公告)号:CN118916525A
公开(公告)日:2024-11-08
申请号:CN202410982368.6
申请日:2024-07-22
Applicant: 上海交通大学
IPC: G06F16/903 , G06F16/901
Abstract: 本发明提供了一种适用于图索引的计算传输流水线并行方法及系统,包括:步骤S1:从当前候选点出发,基于内存中的压缩向量计算当前候选点邻居与目标向量的近似距离,更新近似候选集;步骤S2:检查近似候选集,当近似候选集中所有点均已被访问或总访问计数超过最大访问限制,结束查询,返回真实候选集;否则,选择近似候选集中第一个未访问的候选点作为下一个候选点,发送异步I/O请求读取下一个候选点对应的完整向量与邻边,并将该候选点标记为已访问;在等待IO完成的同时,计算当前候选点与目标向量的真实距离,更新真实候选集;步骤S3:收到I/O完成通知,保留下一个候选点的完整向量;基于下一个候选点更新当前候选点,重复触发步骤S1至步骤S3。
-
公开(公告)号:CN118885331A
公开(公告)日:2024-11-01
申请号:CN202410769668.6
申请日:2024-06-14
Applicant: 上海交通大学
Abstract: 本发明提供了一种适用于通用图形处理器的状态保存与恢复方法和系统,在状态保存的过程中,该方法允许GPU应用继续执行,同时在发射GPGPU核函数前,该方法会预测核函数访问的内存,并通过写时拷贝、设置脏位等方法,保证状态保存数据的准确性;在状态恢复的过程中,该方法通过重执行核函数的方式恢复脏内存,以及借助按需装载的方式加速程序的恢复过程。与现有技术相比,本发明具有低开销、硬件和工作负载适配范围广的特点,可以用于支撑容灾备份、热迁移和快速启动等重要系统需求。
-
公开(公告)号:CN115114003B
公开(公告)日:2024-05-28
申请号:CN202210780174.9
申请日:2022-07-04
Applicant: 上海交通大学
Abstract: 本发明提供了一种GPU动态多任务可控并发执行方法及系统,包括:步骤S1:在程序编译阶段生成一个或多个proxy kernel作为待执行kernel的入口;步骤S2:在程序运行阶段,用户动态选择并发执行的待执行kernel;步骤S3:根据选择的待执行kernel所需要的寄存器数量,选择proxykernel提交到GPU中;步骤S4:用户通过proxykernel动态控制各个待执行kernel使用的计算单元数量,跳转到待执行kernel并执行。本发明通过proxy kernel为待执行kernel动态分配指定数量的计算单元,可以实现GPU程序运行阶段细粒度的计算单元分配。
-
公开(公告)号:CN117873730A
公开(公告)日:2024-04-12
申请号:CN202410164168.X
申请日:2024-02-05
Applicant: 上海交通大学
Abstract: 本发明提供了一种适用于多GPU环境的高效嵌入向量访问方法及系统,包括:获取计算平台的硬件特征信息;将GPU中的计算单元划分为多个逻辑分组;为各个计算单元逻辑分组分别创建高优先级的局部计算任务队列;为所有计算单元创建低优先级的全局计算任务队列;每接收到一批嵌入向量的访问请求时,在缓存索引表中查询各个嵌入向量的具体存储位置;根据查询得到的存储位置将嵌入向量的批次访问请求划分为若干子批次;对于需要从非本地存储位置进行访问的子批次,将其放入存储位置对应的局部任务队列中,以在相对应的计算单元逻辑分组上执行;在启动非本地子批次嵌入向量访问后,将访问本地的子批次放入优先级较低的全局任务队列,以在所有计算单元上执行。
-
公开(公告)号:CN110955672B
公开(公告)日:2023-03-24
申请号:CN201911165640.7
申请日:2019-11-25
Applicant: 上海交通大学
Abstract: 本发明提供了一种面向乐观并发控制的多版本支持方法及系统,包括:初始时间戳获取步骤;第一时间戳更新步骤;时间戳增加步骤;第一时间戳写回步骤;第二时间戳写回步骤;第二时间戳更新步骤;读取快照步骤;该方法及系统利用乐观并发控制的特点,高效的获取事务的时间戳;在多版本数据库中,为只读事务选取合适的数据读取版本,为读写事务选取合适的数据写入版本,使得只读事务不会受到读写事务读写冲突的影响。和传统乐观并发控制方法相比,极大的提升了只读事务的执行性能;和传统时间戳方法相比,减少了网络通信和和去除了性能瓶颈。
-
公开(公告)号:CN112148930B
公开(公告)日:2023-01-06
申请号:CN202011041143.9
申请日:2020-09-28
Applicant: 上海交通大学
IPC: G06F16/901 , G06F16/903
Abstract: 本发明公开了一种基于RTM的图数据库系统事务处理的方法,其包括步骤:S1:使用RTM进行事务处理提交;S2:判断事务提交是否成功,当判断结果为成功时,则完成事务处理;当判断结果为不成功时,则进入步骤S3:S3:对尝试次数进行判断,当尝试次数大于等于指定次数时,使用回退方法进行事务处理,以完成指定事务的处理;当尝试次数小于指定次数时,回到步骤S1。此外,本发明公开了上述基于RTM的图数据库系统事务处理的系统以及一种存储有计算机程序的计算机可读存储介质。本发明通过使用RTM来完成绝大部分事务,相比于传统锁机制存在的大量开销和不足,本发明实现了更好的图数据库性能、可扩展性以及增加系统的吞吐量。
-
公开(公告)号:CN112149808A
公开(公告)日:2020-12-29
申请号:CN202011043369.2
申请日:2020-09-28
Applicant: 上海交通大学
Abstract: 本发明公开了一种拓展单机图神经网络训练至分布式训练的方法,该方法通过提供图划分和数据同步拓展的功能,利用具有自动反向传播的单机图神经网络框架,只需要在原有单机图神经网络模型代码中增加少量的数据同步代码,再将大图划分至多台服务器,可以在不修改单机图神经网络框架以及不修改原有单机图神经网络模型计算逻辑的情况下,使用多台服务器实现与单机图神经网络训练等价的分布式大图训练。此外,本发明还公开了一种拓展单机图神经网络训练至分布式训练的系统。另外,本发明公开了一种存储有计算机程序的计算机可读存储介质。
-
公开(公告)号:CN112003860A
公开(公告)日:2020-11-27
申请号:CN202010851056.3
申请日:2020-08-21
Applicant: 上海交通大学
Abstract: 本发明提供了一种适用于远程直接内存访问的内存管理方法、系统及介质,包括:步骤1:在发送端发送请求时,记录当前的水位值;步骤2:将当前的水位值加一;步骤3:将记录的水位值编码进RDMA请求中并发送;步骤4:将请求地址和记录的水位值存入缓存队列中;步骤5:检查网卡完成的发送请求,计算得到已完成请求的水位值;步骤6:判断缓存队列中队头记录的水位值是否小于等于已完成请求的水位值,如果是,则执行步骤7;如果不是,则结束;步骤7:释放队头记录的缓存;步骤8:将当前队头记录移出缓存列队,返回步骤6继续执行。本发明无需进行额外的内存拷贝,具有很小的管理开销,并杜绝了内存污染现象的出现,具有良好的可用性和性能。
-
公开(公告)号:CN109062929B
公开(公告)日:2020-11-06
申请号:CN201810596030.1
申请日:2018-06-11
Applicant: 上海交通大学
IPC: G06F16/245 , G06F16/2458 , H04L29/08
Abstract: 本发明提供了一种查询任务通信方法及系统,包括:在接收到的查询请求的服务器解析查询请求,将查询请求中的查询语句分解成多个子步骤,子步骤的相关信息属于查询任务的元数据;从多个子步骤的第一个子步骤开始逐步处理查询请求,得到查询中间结果;若下一个子步骤依赖的数据在远端服务器,则将查询中间结果和查询任务的元数据分别通过GPUDirect RDMA和RDMA的方式发送给远端的服务器,远端服务器根据接收到的查询中间结果和查询任务的元数据继续处理查询请求的子步骤。本发明降低了整个通信过程的开销、避免了网络资源的争用且提高了整个查询系统的性能。
-
公开(公告)号:CN106844048B
公开(公告)日:2020-11-06
申请号:CN201710025548.5
申请日:2017-01-13
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于硬件特性的分布式共享内存方法及系统,包括获取远端程序访问权限步骤:使用单边RDMA读操作和写操作绕过远端处理器访问和修改远端进程的页表项;内存共享步骤:实现不同多核处理器之间的分布式内存共享;线程同步操作步骤:使用原子RDMA操作实现线程同步操作。本发明能够绕过远端处理器(CPU)的干预直接控制远程计算机对内存的访问,使用层级化的共享内存模式,提供了基于RDMA的高效同步原语,具有低CPU占用率,易于编程,线程间同步性能好等特点。
-
-
-
-
-
-
-
-
-