一种基于隐私保护的方式获取联合训练模型的方法及系统

    公开(公告)号:CN111931216B

    公开(公告)日:2021-03-30

    申请号:CN202010974956.7

    申请日:2020-09-16

    Abstract: 本说明书一个或多个实施例涉及一种基于隐私保护的方式获取联合训练模型的方法及系统,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;所述方法包括:基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获取第二模型。

    一种基于树模型的预测方法和装置

    公开(公告)号:CN110795603B

    公开(公告)日:2021-02-19

    申请号:CN201911040223.X

    申请日:2019-10-29

    Inventor: 陈超超 王力 周俊

    Abstract: 本说明书实施例提供了一种保护隐私的树模型构建方法和装置及基于该树模型的预测方法和装置,所述构建方法包括:从至少两个数据方各自的设备获取M组分裂结果,M组分裂结果与M个特征分别对应;记录M组分裂结果各自对应的数据方;基于N个样本各自的标签值,分别计算各个分裂结果的分裂增益;获取具有最大分裂增益的分裂结果作为最优分裂结果;在最优分裂结果的分裂增益为正值的情况中,确定最优分裂结果对应的数据方;在对应的数据方为第二数据方的情况中,将最优分裂结果发送给第二数据方的设备,并记录第一节点与第二数据方的对应关系;对第一节点进行标注,以指示本地没有第一节点的节点数据,并相应地更新所述第一树的树结构。

    多方数据联合处理方法、装置及系统

    公开(公告)号:CN112000991B

    公开(公告)日:2021-02-09

    申请号:CN202011166510.8

    申请日:2020-10-27

    Inventor: 陈超超 王力 周俊

    Abstract: 本说明书的实施例提供基于隐私保护的多方数据联合处理方法、装置及系统。每个成员设备具有本地隐私数据。在各个成员设备处,响应于用于对多个成员设备的本地隐私数据执行多方数据联合处理的数据处理请求,生成本地随机数,并且使用本地隐私数据在本地执行第一函数计算得到本地处理结果。多方数据联合处理是针对各个成员设备的本地隐私数据执行第二函数计算,并且第二函数计算可被表征为各个成员设备的第一函数计算的组合运算。多个成员设备使用各自的本地随机数和本地处理结果来执行多方安全计算得到多方数据联合处理结果,每个成员设备具有多方数据联合处理结果的多方数据联合处理结果分片。

    基于数据隐私保护的两方数据聚类方法、装置及系统

    公开(公告)号:CN111737753B

    公开(公告)日:2020-12-22

    申请号:CN202010722393.2

    申请日:2020-07-24

    Abstract: 本说明书实施例提供基于数据隐私保护的两方数据聚类方法、装置及系统。在各个数据拥有方处,分别将各自具有的数据集中的各个数据样本切分为两个数据份额。各个数据拥有方将所切分出的各个数据样本的两个数据份额中的一个数据份额共享给另一数据拥有方。在各个数据拥有方处,分别基于该数据拥有方保留的各个数据样本的数据份额以及从另一数据拥有方获取的各个数据样本的数据份额得到该数据拥有方的重组数据集。在各个数据拥有方之间,使用各个数据拥有方的重组数据集来进行数据聚类。

    用于联盟学习的方法、装置及联盟学习系统

    公开(公告)号:CN112036580A

    公开(公告)日:2020-12-04

    申请号:CN202010945591.5

    申请日:2020-05-15

    Inventor: 王力 周俊

    Abstract: 本说明书的实施例提供用于联盟学习的方法,所述联盟包括至少三个第一成员设备以及第二成员设备,每个第一成员设备具有本地数据。在该方法中,第二成员设备基于各个第一成员设备的硬件性能参数信息,对第一成员设备进行成员分组,得到各个第一成员设备分组,每个第一成员设备分组具有与各自的硬件性能参数适配的初始全局业务模型。各个第一成员设备分组中的第一成员设备的硬件性能参数相似,并且各个初始全局业务模型具有不同的模型复杂度。针对各个第一成员设备分组,该第一成员设备分组中的各个第一成员设备使用各自的本地数据,与第二成员设备一起执行联盟学习来得到目标全局业务模型。

    多方数据联合处理方法、装置及系统

    公开(公告)号:CN112000991A

    公开(公告)日:2020-11-27

    申请号:CN202011166510.8

    申请日:2020-10-27

    Inventor: 陈超超 王力 周俊

    Abstract: 本说明书的实施例提供基于隐私保护的多方数据联合处理方法、装置及系统。每个成员设备具有本地隐私数据。在各个成员设备处,响应于用于对多个成员设备的本地隐私数据执行多方数据联合处理的数据处理请求,生成本地随机数,并且使用本地隐私数据在本地执行第一函数计算得到本地处理结果。多方数据联合处理是针对各个成员设备的本地隐私数据执行第二函数计算,并且第二函数计算可被表征为各个成员设备的第一函数计算的组合运算。多个成员设备使用各自的本地随机数和本地处理结果来执行多方安全计算得到多方数据联合处理结果,每个成员设备具有多方数据联合处理结果的多方数据联合处理结果分片。

    一种线性回归任务的运行方法及装置、电子设备

    公开(公告)号:CN111966473A

    公开(公告)日:2020-11-20

    申请号:CN202010721528.3

    申请日:2020-07-24

    Inventor: 谭晋 王磊 王力

    Abstract: 本申请实施例提供了一种线性回归任务的运行方法及装置、电子设备。其中,线性回归任务的运行方法通过独立的运行针对第一自变量矩阵的每个列创建的线性回归任务,并在每个线性回归任务中,针对每一列向量,使用对应的校正算法对根据第一自变量矩阵和预设回归系数向量确定的公共向量进行校正,可以得到针对每一列向量的回归值向量,从而可以计算出每一列向量与其它列向量之间的共线性参数,使得在独立的并行运行多个线性回归任务时,不用在执行每个线性回归任务之前提前对第一自变量矩阵进行变形处理并存储,也即,无需存储多个第一自变量矩阵的变形矩阵,节约了存储空间,兼顾了线性回归任务的运行速度和内存占用的问题。

    一种用于分布式模型训练的目标数据方筛选方法及系统

    公开(公告)号:CN111931876A

    公开(公告)日:2020-11-13

    申请号:CN202011082434.2

    申请日:2020-10-12

    Abstract: 本说明书一个或多个实施例涉及一种用于分布式模型训练的目标数据方筛选方法和系统,所述方法包括:从任务方获取训练任务信息;所述训练任务信息包括待预训练模型信息以及待训练目标模型信息;接收来自至少一个数据方的接受任务指示,得到备选数据方集合;将所述待预训练模型信息下发给所述备选数据方集合中的各数据方;获取所述各数据方的预训练模型;其中,所述各数据方的预训练模型是基于自身持有的训练样本以及所述待预训练模型信息进行模型训练得到的;获取各预训练模型的性能指标参数;至少基于各预训练模型的性能指标参数,从备选数据方集合中确定一个或多个目标数据方;将所述待训练目标模型信息下发给各目标数据方。

    基于模型复用的模型预测方法、模型预测装置及系统

    公开(公告)号:CN111931870A

    公开(公告)日:2020-11-13

    申请号:CN202011023294.1

    申请日:2020-09-25

    Inventor: 陈超超 王力 周俊

    Abstract: 本说明书的实施例提供一种基于模型复用的模型预测方法、装置及系统。在该模型预测方法中,使用模型拥有方处的多个可复用预测模型中的每个可复用预测模型来分别对数据拥有方处的待预测数据进行预测得到各个可复用预测模型的预测标签,所述预测标签通过在数据拥有方和模型拥有方之间对待预测数据和各个可复用预测模型分别进行安全计算得到,并且多个可复用预测模型具有相同的模型预测特征。随后,根据各个可复用预测模型的预测标签以及各个可复用预测模型的模型权重,确定待预测数据的预测标签,各个可复用预测模型的模型权重是在数据拥有方具有的数据样本集下的模型权重。

    更新业务模型的方法及装置

    公开(公告)号:CN111930968A

    公开(公告)日:2020-11-13

    申请号:CN202011089710.8

    申请日:2020-10-13

    Abstract: 本说明书实施例基于具有隐私保护需求的多方安全计算场景,提供一种更新业务模型的方法和装置,针对用于处理知识图谱的业务数据在训练过程中,模型损失的连续性无法保障的情形,提出对模型损失增加利普希茨连续性的约束项,该约束项可以基于常规模型损失对知识图谱中的图谱参数的梯度,与预设的利普希茨常数的对比确定。通过这种方式,在损失最小化过程中,使得模型损失趋于利普希茨连续。如此,可以在使用模型优化算法过程中,提高模型参数的收敛性,加快收敛速度。进一步地,该方案可以适用于任意用于处理知识图谱的机器学习模型的训练过程,且不局限于单方训练和联邦学习场景。

Patent Agency Ranking