-
公开(公告)号:CN115774736A
公开(公告)日:2023-03-10
申请号:CN202310095934.7
申请日:2023-02-10
Applicant: 之江实验室
IPC: G06F16/2455 , G06F16/245 , G06F16/2453 , G06F16/22 , G06F16/901 , G06F16/903 , G06F9/50
Abstract: 本发明公开了一种数据延迟发送的NUMA架构时变图处理方法与装置,首选基于基线快照建立初始的时变图数据表示;根据更新快照以更新时变图数据表示,并构建快照并集;基于快照并集,在NUMA节点内部进行迭代计算,更新并累积顶点数据;将累积的顶点数据传播到其他NUMA节点以更新其他顶点数据;循环上述步骤,直至每个NUMA节点内没有可计算的活动顶点,对每个NUMA节点输出的结果进行聚合,完成NUMA架构时变图的处理。本发明关注了服务器的NUMA结构特征,实现了数据的合理分配以及数据包的灵活传输,降低了NUMA节点间的通信频率,提高计算资源的利用率,使时变图的计算效率得到显著提高。
-
公开(公告)号:CN115237580B
公开(公告)日:2022-12-16
申请号:CN202211147981.3
申请日:2022-09-21
Applicant: 之江实验室
Abstract: 本发明提供一种面向智能计算的流水并行训练自适应调整系统、方法,系统包括监控模块和调整模块,调整模块在计算节点的计算任务划分不均衡时,根据计算节点的不均衡类型,确定调整策略,并根据调整策略,调整子模型在计算集群中的分配;调整包括以下至少一种:将计算任务划分不均衡的计算节点的至少部分子模型的层由该计算节点迁移至其他计算节点;控制计算任务划分不均衡的计算节点执行CPU‑GPU内存交换或重计算,或者控制计算任务划分不均衡的计算节点取消当前执行的CPU‑GPU内存交换或重计算;对计算集群的网络拓扑结构进行调整。本发明能动态调整子模型在计算集群中的分配。
-
公开(公告)号:CN114896434B
公开(公告)日:2022-11-18
申请号:CN202210821230.9
申请日:2022-07-13
Applicant: 之江实验室
IPC: G06F16/51 , G06F16/58 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于中心相似度学习的哈希码生成方法及装置,该方法包括:获取带有标签的训练数据集;利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该数据对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;根据所述中心相似性学习的目标损失函数,训练多模态神经网络;获取多模态数据并对所述多模态数据进行预处理;将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码。
-
公开(公告)号:CN115248728A
公开(公告)日:2022-10-28
申请号:CN202211148202.1
申请日:2022-09-21
Applicant: 之江实验室
Abstract: 本发明提供一种面向智能计算的分布式训练任务调度方法、系统和装置,系统包括模型性能预测和分解模块、全局GPU资源调度器和各计算节点均配置的本地GPU资源调度器,全局GPU资源调度器在接收到模型性能预测和分解模块发送的子任务请求后,根据各子任务的资源消耗信息及多个计算节点的GPU运行情况,将各子任务分配到匹配的计算节点的GPU进行训练,并构建各子任务之间的通信拓扑,并在各计算节点的GPU训练对应子任务的过程中,监控各计算节点的GPU的计算资源运行情况,及根据所有计算节点的GPU的计算资源运行情况,控制子任务的调度。本发明能够提高计算集群的GPU和网络等资源的利用率,减少子任务训练的等待时间。
-
公开(公告)号:CN114968588A
公开(公告)日:2022-08-30
申请号:CN202210632036.6
申请日:2022-06-07
Applicant: 之江实验室
Abstract: 本发明公开一种面向多并发深度学习训练任务的数据缓存方法和装置,该方法包括:步骤一,对多并发任务中每个任务执行预热训练,采集任务训练批次样本的特征参数,根据特征参数对所有任务进行排序;步骤二,计算每个任务在系统预分配下每个训练批次样本在缓存空间中的样本数目和每个任务期望每个训练批次样本在缓存空间中的样本数目;步骤三,采用缓存动态分配和管理策略并发执行任务的深度学习训练;步骤四,当各任务进入最后一个训练周期时,不再有新的样本数据加入这些任务的缓存空间,同时随着缓存空间内的样本数据被逐渐使用消耗,被占用的缓存空间逐步被释放,被释放的缓存空间被其他尚未结束的任务使用。本发明提高了全局缓存空间的利用率。
-
公开(公告)号:CN114417073B
公开(公告)日:2022-08-05
申请号:CN202210309856.1
申请日:2022-03-28
Applicant: 之江实验室
IPC: G06F16/901 , G06F16/903 , G06F16/953 , G06F21/60 , G06F21/62
Abstract: 本发明公开了一种加密图的邻居节点查询方法及装置、电子设备,该方法包括:提取每个节点的邻居节点,生成邻居节点表;根据邻居节点表和生成的密钥组,生成加密索引字典;对加密索引字典进行扩充,将扩充索引字典发送至云服务器以使得云服务器对扩充索引字典进行存储;接收用户端的关于目标节点的查询请求;根据查询请求和密钥组,生成目标节点的查询令牌;向用户端发送查询令牌和密钥组,以使得用户端向云服务器发送查询令牌,云服务器根据查询令牌和扩充索引字典,对目标节点的邻居节点进行查询,将查询结果发送至用户端,用户端根据密钥组对查询结果进行解密,从而得到目标节点的明文查询结果。该方法可实现top‑H跳邻居节点和top‑k邻居节点的查询。
-
公开(公告)号:CN114820278A
公开(公告)日:2022-07-29
申请号:CN202210463699.X
申请日:2022-04-29
Applicant: 之江实验室
Abstract: 本发明属于人工智能下的深度学习领域,公开了一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法,所述系统包括GPU Profile模块、任务信息采集模块、GPU选择模块和深度学习训练模块;本发明的一种用于分布式环境下多深度学习任务的异构GPU分配方法可以通过将不同计算能力的GPU分配给对应需求的任务,将模型层次复杂且批次数据量大的任务适配到性能最佳的GPU且显存足够存储的节点上运行,加快需要更长时间做深度学习训练的任务,从而明显提高异构环境下的多任务执行效率;而且当多深度学习任务并发执行,多深度学习能够整体更快地完成,可以节约程序员或用户等待结果的时间。
-
公开(公告)号:CN114499818A
公开(公告)日:2022-05-13
申请号:CN202210088338.1
申请日:2022-01-25
Applicant: 之江实验室
IPC: H04L9/00 , H04L9/08 , H04L9/32 , H04L9/40 , H04L67/10 , H04L67/12 , G06F16/27 , G06F21/64 , G06Q40/04
Abstract: 本发明公开了一种云数据审计方法及装置、电子设备、计算机可读存储介质,包括:拥有数据的终端对其数据构建用于完整性审计的可验证标签,然后将数据及标签存储到云服务器。为了保证存储数据的完整性,授权第三方审计者对存储在云服务器的数据进行完整性验证。由于第三方审计者并不完全可信,因此,提出一种云数据审计方法,针对每次审计操作,成立一个随机选择成员的审计者委员会,来完成审计操作。因为审计者委员会成员是随机选取,从而可以抵抗拒绝服务攻击与合谋攻击。
-
公开(公告)号:CN114237918A
公开(公告)日:2022-03-25
申请号:CN202210183223.0
申请日:2022-02-28
Applicant: 之江实验室
Abstract: 本发明公开了一种面向神经网络模型计算的图执行方法和装置,包括根据深度学习框架编译生成的物理计算图,创建本机上的任务执行体,通过设计为每个任务执行体分配多个空闲内存块的方案,实现整张计算图以流水并行的方式同时参与到不同批次数据的深度学习训练任务中,本发明公开的面向神经网络模型计算的图执行方法和装置,以算子核函数的执行体为基本单元,以生产和消费的张量作为整个计算图中流动的数据,执行体以流水并行的方式实现模型的训练过程。在大规模深度神经网络的分布式应用场景下,本发明对用户的使用门槛较低,并且能够使模型学习到大量分批次流入神经网络的数据的内在关联,从而获得对应场景中的“智能”感知与判断能力。
-
公开(公告)号:CN113835758A
公开(公告)日:2021-12-24
申请号:CN202111412784.5
申请日:2021-11-25
Applicant: 之江实验室
Abstract: 本发明公开了基于向量指令加速计算的Winograd卷积实现方法,包括如下步骤:S1,构建寄存器分块策略,在CPU上的Winograd卷积实现过程中,原始数据转换到Winograd数据域时,对中间缓冲的数据进行向量分块和寄存器分块;S2,构建内存数据布局策略,将Winograd卷积的原始数据和中间缓冲的数据在内存上进行排列,相对于矩阵乘法的最优性,对中间缓冲的数据布局,将Winograd分块维度安排到更内层的位置;S3,构建cache分块搜索,根据CPU硬件参数和卷积参数确定的小范围内,搜索cache分块的性能最优解,并将其与对应的卷积参数一起保存,后续通过卷积参数直接采用该性能最优解。
-
-
-
-
-
-
-
-
-