基于分布式训练系统的计算方法和装置

    公开(公告)号:CN114723012B

    公开(公告)日:2024-07-02

    申请号:CN202210390305.2

    申请日:2022-04-14

    摘要: 本公开提供了一种基于分布式训练系统的计算方法和装置。分布式训练系统包括多个训练成员,多个训练成员包括多种角色,多种角色中的不同角色的训练成员在机器学习模型的训练过程中执行不同的操作,该方法应用于多个训练成员中的第一训练成员,该方法包括:获取多个模型,多个模型分别用于定义与机器学习模型的训练相关的多种计算操作;将多个模型输入至分布式模型,以对分布式模型进行初始化,分布式模型具有第一函数,第一函数用于定义多种角色在训练过程中各自需要执行的计算操作和通信操作;在训练过程中,根据分布式模型,执行第一训练成员的角色对应的计算操作和通信操作。

    一种数据确定方法、装置、存储介质及终端

    公开(公告)号:CN115001733B

    公开(公告)日:2024-06-04

    申请号:CN202210396044.5

    申请日:2022-04-15

    发明人: 崔锦铭 段普 王力

    IPC分类号: H04L9/40 H04L9/30

    摘要: 本说明书公开了一种数据确定方法、装置、存储介质及终端,其中,方法包括:第一终端发送第一加密数据至第二终端;第二终端采用第二公钥对第一加密数据进行加密得到第二加密数据,并将第二加密数据和第三加密数据发送至第一终端;第一终端采用第一公钥对第三加密数据进行加密得到第四加密数据,获取第二加密数据和第四加密数据的第一交集数据,并发送第一交集数据至第三终端;第三终端获取第一终端发送的第五加密数据;第三终端基于第五加密数据和第一交集数据确定第二交集数据,并发送第二交集数据至第一终端和第二终端。

    用于经由多个数据拥有方训练模型的方法、装置及系统

    公开(公告)号:CN114819182B

    公开(公告)日:2024-05-31

    申请号:CN202210397805.9

    申请日:2022-04-15

    IPC分类号: G06N20/00 G06N3/04 G06N3/098

    摘要: 本说明书实施例提供了用于经由多个数据拥有方训练模型的方法、装置及系统。在该方法中,各个第二数据拥有方根据第一数据确定出与各个第一数据相交的第二特征数据,执行下述主循环过程,直至满足第一循环结束条件:针对每个训练单元,利用第一训练样本和第二训练样本对参与该训练单元训练的第一模型、第二模型和第三模型进行协同训练,主服务器对各个训练单元的经过训练的第一模型和/或第三模型进行联邦聚合,以得到对应的第一全局模型和/或第三全局模型,在各个第一数据拥有方处和/或各个从服务器处,根据第一全局模型对第一模型进行更新和/或根据第三全局模型对第三模型进行更新。

    联合更新模型的方法、装置及系统

    公开(公告)号:CN114004363B

    公开(公告)日:2024-05-31

    申请号:CN202111256451.8

    申请日:2021-10-27

    IPC分类号: G06N20/00

    摘要: 本说明书实施例提供一种联合更新模型的方法、装置及系统。通过本说明书实施例提供的方法、装置和系统,基于联合更新模型时的数据复合切分情形,设想将训练成员的数据进行分割,从而构成多个水平切分的子系统,在单个子系统内部,可以包括数据垂直切分的训练成员。这样,数据呈垂直切分的单个子系统通过分布在多个训练成员的训练样本在子系统内部迭代,从而更新待同步参数。而各个子系统之间,可以按照同步条件触发的同步周期进行数据同步。这种方式充分考虑各个训练成员的数据构成,为复杂数据结构下的联合更新模型提供解决方案,有利于扩展联邦学习的应用范围。

    一种隐私保护的模型训练方法、系统及装置

    公开(公告)号:CN113033825B

    公开(公告)日:2024-05-28

    申请号:CN202110430504.7

    申请日:2021-04-21

    发明人: 吴慧雯 陈岑 王力

    IPC分类号: G06N20/00 G06N3/098 G06F21/62

    摘要: 本说明书实施例公开了一种隐私保护的模型训练方法和系统,所述方法由参与训练的多个数据方中的某一数据方实现,所述方法包括对数据方持有的模型进行多轮迭代更新,所述模型包括共享部分和专有部分,其中,一轮迭代更新包括:基于自身持有的训练样本对模型进行一次或多次迭代训练,对应于模型的共享部分的第一共享数据和对应于模型的专有部分的本地数据;传输第一共享数据至服务器,以便使服务器基于多个数据方的第一共享数据确定第二共享数据;获取服务器返回的第二共享数据,并基于第二共享数据更新模型的共享部分;基于更新后的模型以进行下一轮迭代更新,或将更新后的模型作为最终模型。

    用户数据的业务模型使用确定方法、装置及系统

    公开(公告)号:CN111783143B

    公开(公告)日:2023-05-09

    申请号:CN202010722285.5

    申请日:2020-07-24

    发明人: 王力 周俊

    IPC分类号: G06F21/62 G06F18/214

    摘要: 本说明书实施例提供用户数据的业务模型使用确定方法及系统。业务模型包括第一特征向量化模型和业务预测模型。将第一用户的第一用户数据提供给第一特征向量化模型得到第一特征向量表示。将第一特征向量表示提供给用户归属确定模型来确定对应的用户归属预测标签。在用户归属预测标签指示属于第一用户时,输出用于指示第一用户数据被业务模型使用的指示信息。用户归属确定模型利用第一数据集训练出。第一数据集包括第二数据集的各个第二数据的第二特征向量表示以及各个第二数据的用户归属标签。第二数据包括公共数据以及第一用户的部分用户数据。各个第二数据的第二特征向量表示利用基于第二数据集训练的第二特征向量化模型得到。

    多方联合对隐私数据进行显著性检验的方法和装置

    公开(公告)号:CN111506922B

    公开(公告)日:2023-03-10

    申请号:CN202010307722.7

    申请日:2020-04-17

    IPC分类号: G06F21/62 G06N20/00

    摘要: 本说明书实施例提供一种多方联合对隐私数据进行显著性检验的方法和装置,隐私数据分布在M个持有方中,M个持有方各自的原始矩阵能假定构成联合矩阵,联合矩阵对应于N个业务对象针对D项属性项的属性值构成的矩阵,检验方在获取到N个业务对象对应的N个预测值以及D项属性项对应的D个模型参数时,将对N个预测值的预定计算结果作为对角元素构建N*N维的预测值矩阵,利用秘密共享的矩阵乘法SMM,基于预测值矩阵以及M个持有方各自的原始矩阵进行乘操作,得到多个子矩阵,并构建中间矩阵,将中间矩阵的逆矩阵确定为预测值矩阵与联合矩阵形成的D*D维的方差协方差矩阵;基于方差协方差矩阵的对角元素,采用显著性检验法,确定属性项的显著性水平值。

    保护数据隐私的两方联合训练预测模型的方法及装置

    公开(公告)号:CN115544576A

    公开(公告)日:2022-12-30

    申请号:CN202211346052.5

    申请日:2022-10-31

    发明人: 郑龙飞 王力

    IPC分类号: G06F21/62 G06N3/08

    摘要: 本说明书实施例提供一种保护数据隐私的两方联合训练预测模型的方法及装置,两方各自持有多个用户的不同特征部分,部署针对不同特征部分的表征层,其中标签方还部署预测层。该方法包括:两方各自在本地处理同一批用户样本的特征部分,得到对应的正序表征,且无标签方还生成乱序方阵;然后,标签方基于其正序表征与无标签方中的正序表征和变换方阵进行安全多方计算,得到乱序融合表征,从而基于利用预测层处理乱序融合表征而得到的乱序预测结果,和基于正序用户标签与无标签方中的乱序方阵进行安全矩阵乘法而得到的乱序预测标签,确定传播至两个表征层的乱序梯度,接着无标签方基于乱序矩阵和乱序梯度确定正序梯度,用于两方各自更新本地表征层。

    用于训练图像识别模型的方法及装置

    公开(公告)号:CN115497142A

    公开(公告)日:2022-12-20

    申请号:CN202211215646.2

    申请日:2022-09-30

    发明人: 王莹桂 王力 王磊

    摘要: 本说明书的实施例提供用于训练图像识别模型的方法及装置。在各个第一成员设备处,对训练样本图像数据进行基于频域变换的数据脱敏处理以得到第一脱敏图像数据;将第一脱敏图像数据提供给超参数选择模型来选择第一超参数;使用第一超参数对第一脱敏图像数据进行基于数据增强的图像混合处理,以得到第二脱敏图像数据以及经过标签混合处理的标记标签数据。然后,使用第二脱敏图像数据以及对应的经过标签混合处理后的标记标签数据训练图像识别模型。第二成员设备使用从各个第一成员设备接收的模型训练结果来更新图像识别模型。