样本数据处理方法、装置及多方模型训练系统

    公开(公告)号:CN111401483B

    公开(公告)日:2022-05-17

    申请号:CN202010411914.2

    申请日:2020-05-15

    Abstract: 本发明公开了一种用于多方模型训练的样本数据处理方法及装置。在该方法中,基于样本数据的数据标签,将第一样本数据集分类为第二样本数据集和第三样本数据集,第二样本数据集中的第二样本数据具有唯一数据标签,以及第三样本数据集中的第三样本数据具有至少两个不同的数据标签。使用第二样本数据集进行模型训练,以训练出第一模型。使用第一模型来对各个第一成员节点的本地数据进行数据质量评估。基于各个第一成员节点的数据质量评估结果,对第三样本数据集中的第三样本数据进行标签重构,所述经过标签重构后的第三样本数据具有唯一数据标签。

    基于多方安全计算检验模型特征显著性的方法和装置

    公开(公告)号:CN110889447B

    公开(公告)日:2022-05-17

    申请号:CN201911174424.9

    申请日:2019-11-26

    Abstract: 本说明书实施例提供了一种基于多方安全计算检验线性回归模型的特征显著性的方法和装置,所述方法由多个数据持有方中第一数据持有方的设备执行,多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数,所述方法包括:与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法,获取所述N个样本的误差平方和;与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法,获取第一矩阵对角线上第j项的值;计算与第j个t检验值对应的第二数值;与其它数据持有方的设备联合执行基于秘密分享的矩阵加法,获取所述第j个t检验值,以基于所述第j个t检验值确定所述线性回归模型的相应特征的显著性。

    一种基于秘密分享的排序方法和系统

    公开(公告)号:CN114172631B

    公开(公告)日:2022-05-06

    申请号:CN202210131397.2

    申请日:2022-02-14

    Inventor: 方文静 王力

    Abstract: 本说明书实施例公开了一种基于秘密分享的排序方法和系统。其中,该方法包括:从第二参与方获取加密第二分片;使用第一公钥对待排序序列的第一分片进行同态加密,获得加密第一分片;基于加密第一分片和加密第二分片,获取加密待排序序列;使用排序序列对加密待排序序列进行排序,获得加密目标序列;其中,目标序列等于基于排序序列对待排序序列进行排序的结果;获取随机序列作为目标序列的第一分片;基于加密目标序列和目标序列的第一分片,获取加密目标序列的第二分片;将加密目标序列的第二分片发送给第二参与方,以便第二参与方基于第一私钥解密加密目标序列的第二分片获得目标序列的第二分片。

    一种针对决策树的分布式预测方法和系统

    公开(公告)号:CN111784078B

    公开(公告)日:2022-04-26

    申请号:CN202010723469.3

    申请日:2020-07-24

    Inventor: 方文静 王力 周俊

    Abstract: 本说明书实施例公开了一种针对决策树的分布式预测方法和系统,可保护各方数据隐私。各方预测模型具有相同结构。任一参与方根据预测对象在己方预测模型上的预测路径,获得己方的标志向量,该标志向量指示预测对象沿该预测路径抵达的叶节点。当预测至本地分裂节点时,基于与该本地分裂节点关联的特征值继续预测;当预测至非本地分裂节点时,继续预测至该非本地分裂节点下的所有子节点。该参与方将己方的标志向量拆分成N个分片,将该N个分片分配给N个参与方,并根据多方安全计算协议与其他N‑1个参与方交互,以基于分配到的N个参与方的标志向量的分片计算等效标志向量的分片,等效标志向量为N个参与方的标志向量按位相乘的结果。

    一种模型更新方法、装置及设备

    公开(公告)号:CN111126623B

    公开(公告)日:2022-04-19

    申请号:CN201911324811.6

    申请日:2019-12-17

    Abstract: 公开了一种模型更新方法、装置及设备。通过本说明书实施例所提供的方案,在给定阴影集合S和目标样本的情形下,分别计算阴影集合中包含训练样本的先验概率α,以及,根据阴影集合S进行采样并训练模型时所得到的采样模型的采样训练参数分布,进而根据给定模型的训练参数分布和目标样本的特征值计算出目标样本z在阴影集合中的后验概率P,从而可以根据后验概率P和先验概率α的差值来评估该已经训练好的模型对于训练样本集合的隐私泄露程度是否合格,在不合格的情形下则改变目标样本和训练样本集合的归属关系,从而得到新的训练样本集合并进行模型调整,以避免隐私数据泄露。

    基于隐私保护确定相同业务数据的方法及装置

    公开(公告)号:CN111460510B

    公开(公告)日:2022-04-12

    申请号:CN202010302518.6

    申请日:2020-04-17

    Inventor: 陈超超 王力 周俊

    Abstract: 本说明书实施例提供一种基于隐私保护确定多个业务方的相同业务数据的方法,通过在各个业务方按照相同规则分别设置的4个哈希表,结合布谷鸟哈希,以及相同业务数据的散列值存储位置重合原理,使得两两业务方之间的数据比较次数大大减少,例如减少至8(子表数量)与业务数据较多的业务方所拥有的业务数据条数的乘积,提高比较效率,另一方面,采用基于秘密共享的等式比较方式进行相应位置的两方数据比较,并在数据比较过程中采用随机抽取部分位比较的方法,减少安全比较过程中的计算量,提高比较效率。总之,本说明书的技术构思可以在隐私保护的基础上,提高确定多个业务方的相同业务数据的效率。

    一种基于秘密分享的排序序列合并方法和系统

    公开(公告)号:CN114282255A

    公开(公告)日:2022-04-05

    申请号:CN202210205832.1

    申请日:2022-03-04

    Inventor: 方文静 王力

    Abstract: 本说明书实施例公开了一种基于秘密分享的排序序列合并方法和系统。其中,该方法包括:基于第一排序序列的第一分片,与第二参与方基于第一排序序列的第二分片,通过秘密分享排列协议,获取第一排序乱序序列的第一分片;第二参与方获得第一排序乱序序列的第二分片;将第一排序乱序序列的第一分片发送给第二参与方,并从第二参与方接收第一排序乱序序列的第二分片,进而获取第一排序乱序序列;基于第一排序乱序序列和第二排序序列的第一分片,获取合并排序乱序序列的第一分片;基于合并排序乱序序列的第一分片,与第二参与方基于合并排序乱序序列的第二分片,通过秘密分享排列协议,获取合并排序序列的第一分片。

    一种生成对抗样本的方法及系统
    119.
    发明公开

    公开(公告)号:CN113822442A

    公开(公告)日:2021-12-21

    申请号:CN202111364468.5

    申请日:2021-11-17

    Inventor: 范洺源 陈岑 王力

    Abstract: 本说明书涉及人工智能领域,特别涉及一种生成对抗样本的方法及系统。该方法包括:基于初始样本和目标模型的多个替代模型,进行一轮或多轮迭代,以构造对抗样本;其中的一轮迭代包括:获取当前轮的待调整样本;当当前轮为第一轮迭代时,所述待调整样本为所述初始样本,否则为前一轮的对抗样本;基于待调整样本和多个替代模型,确定各替代模型的脆弱方向;所述脆弱方向与替代模型对待调整样本的预测结果与所述初始样本的标签之间的差异相对待调整样本的梯度信息相关;基于各替代模型的脆弱方向确定扰动数据;将所述扰动数据添加到所述待调整样本中,以获得当前轮的对抗样本。

    一种隐私保护的模型训练方法和系统

    公开(公告)号:CN113722760A

    公开(公告)日:2021-11-30

    申请号:CN202111040498.0

    申请日:2021-09-06

    Abstract: 本说明书实施例公开了一种隐私保护的模型训练方法和系统,所述参与方包括多个训练成员以及服务器,训练成员以及服务器具有相同结构的待训练模型,所述方法其中一轮迭代更新包括:利用自身持有的训练样本对待训练模型进行至少一次本地训练,得到模型数据;所述模型数据中的部分元素添加有噪声;至少基于当前迭代轮次确定传输数据比例,并基于所述传输数据比例从所述模型数据中选出部分元素,得到传输数据;将所述传输数据传输给服务器,以便服务器进行模型数据聚合;接收服务器返回的模型数据更新结果,并基于所述模型数据更新结果进行本地模型更新,将更新后的本地模型作为待训练模型进行下一轮迭代更新,或者基于此确定最终模型。

Patent Agency Ranking