图数据挖掘方法、装置、电子设备及机器可读存储介质

    公开(公告)号:CN113867983A

    公开(公告)日:2021-12-31

    申请号:CN202111075298.9

    申请日:2021-09-14

    Abstract: 本申请提供一种图数据挖掘方法、装置、电子设备及机器可读存储介质,该方法包括:对原始数据进行预处理,得到图结构数据;依据分布式图神经网络的训练策略,对所述图结构数据进行切分,得到多个子图数据,并将所述子图数据存储分布式内存管理系统;构建分布式图神经网络训练函数,利用所述分布式图神经网络训练函数,依据所述分布式内存管理系统中存储的子图数据,进行分布式图神经网络模型训练,并将得到的Embedding存储到所述分布式内存管理系统;依据所述分布式内存管理系统中保存的所述Embedding进行ML模型的训练和预测。该方法可以提升图数据挖掘的执行效率。

    图卷积神经网络训练和图运算方法、装置、设备及系统

    公开(公告)号:CN115130642B

    公开(公告)日:2025-04-08

    申请号:CN202110328439.7

    申请日:2021-03-26

    Abstract: 本申请实施例提供了一种图卷积神经网络训练和图运算方法、装置、设备及系统中,通过对全图进行切割,得到多个子图,并针对每个子图,获得该子图中各节点在全图中的度,将各子图分发到各训练设备进行训练,并且在下发子图的同时下发获得的该子图中各节点的度,各训练设备利用本地的图卷积神经网络对该子图进行前馈计算时,由于是基于全图的度进行计算的,能够保证得到的节点输出特征与全图的节点输出特征一致,则在对图卷积神经网络进行训练的过程中,相当于是基于全图对图卷积神经网络进行训练,且由于子图的数据量远小于全图的数据量,利用多个训练设备的分布式训练方式,实现了基于大数量级的图对图卷积神经网络模型进行训练的目的。

    数据处理方法及系统
    3.
    发明授权

    公开(公告)号:CN112035261B

    公开(公告)日:2024-10-01

    申请号:CN202010954887.3

    申请日:2020-09-11

    Abstract: 本申请实施例提供了数据处理方法及系统,基于CPU的分布式大数据处理框架集群包括多个预处理进程,每个预处理进程分别对自身对应的缓存分区中的样本数据进行处理,当任一缓存分区的样本数据处理完成后,将针对该一缓存分区预处理得到的数据发送给基于GPU的深度学习框架集群,深度学习框架集群在接收到分区预处理数据后即时对深度学习模型进行训练。每完成针对单个缓存分区预处理便进行数据传输,减少了大数据处理框架集群因将分布在各个预处理进程中的数据统一收集而造成的性能耗时,同时先预处理完成的分区预处理数据可以先传输给深度学习框架集群进行训练,能够增加深度学习模型的训练效率。

    一种子图规模预测和分布式训练方法、装置及电子设备

    公开(公告)号:CN112990332B

    公开(公告)日:2023-06-02

    申请号:CN202110328443.3

    申请日:2021-03-26

    Abstract: 本申请实施例提供了一种子图规模预测和分布式训练方法、装置及电子设备,获取图的节点个数、平均度及子图个数,并根据节点个数、平均度及子图个数,利用预测模型,获得子图平均节点数;若子图平均节点数超过计算单元可承载的节点数上限,则调整子图个数,并返回执行根据节点个数、平均度及子图个数,利用预测模型,获得子图平均节点数的步骤;若子图平均节点数不超过节点数上限,则确定包括当前的子图个数和子图平均节点数的子图规模预测结果。通过本方案,增加了计算单元可处理子图的可能性,从而在一定程度上保证了计算单元可对子图进行正常处理。

    一种子图规模预测和分布式训练方法、装置及电子设备

    公开(公告)号:CN112990332A

    公开(公告)日:2021-06-18

    申请号:CN202110328443.3

    申请日:2021-03-26

    Abstract: 本申请实施例提供了一种子图规模预测和分布式训练方法、装置及电子设备,获取图的节点个数、平均度及子图个数,并根据节点个数、平均度及子图个数,利用预测模型,获得子图平均节点数;若子图平均节点数超过计算单元可承载的节点数上限,则调整子图个数,并返回执行根据节点个数、平均度及子图个数,利用预测模型,获得子图平均节点数的步骤;若子图平均节点数不超过节点数上限,则确定包括当前的子图个数和子图平均节点数的子图规模预测结果。通过本方案,增加了计算单元可处理子图的可能性,从而在一定程度上保证了计算单元可对子图进行正常处理。

    图卷积神经网络训练和图运算方法、装置、设备及系统

    公开(公告)号:CN115130642A

    公开(公告)日:2022-09-30

    申请号:CN202110328439.7

    申请日:2021-03-26

    Abstract: 本申请实施例提供了一种图卷积神经网络训练和图运算方法、装置、设备及系统中,通过对全图进行切割,得到多个子图,并针对每个子图,获得该子图中各节点在全图中的度,将各子图分发到各训练设备进行训练,并且在下发子图的同时下发获得的该子图中各节点的度,各训练设备利用本地的图卷积神经网络对该子图进行前馈计算时,由于是基于全图的度进行计算的,能够保证得到的节点输出特征与全图的节点输出特征一致,则在对图卷积神经网络进行训练的过程中,相当于是基于全图对图卷积神经网络进行训练,且由于子图的数据量远小于全图的数据量,利用多个训练设备的分布式训练方式,实现了基于大数量级的图对图卷积神经网络模型进行训练的目的。

    数据处理方法及系统
    7.
    发明公开

    公开(公告)号:CN112035261A

    公开(公告)日:2020-12-04

    申请号:CN202010954887.3

    申请日:2020-09-11

    Abstract: 本申请实施例提供了数据处理方法及系统,基于CPU的分布式大数据处理框架集群包括多个预处理进程,每个预处理进程分别对自身对应的缓存分区中的样本数据进行处理,当任一缓存分区的样本数据处理完成后,将针对该一缓存分区预处理得到的数据发送给基于GPU的深度学习框架集群,深度学习框架集群在接收到分区预处理数据后即时对深度学习模型进行训练。每完成针对单个缓存分区预处理便进行数据传输,减少了大数据处理框架集群因将分布在各个预处理进程中的数据统一收集而造成的性能耗时,同时先预处理完成的分区预处理数据可以先传输给深度学习框架集群进行训练,能够增加深度学习模型的训练效率。

Patent Agency Ranking