-
公开(公告)号:CN111160357A
公开(公告)日:2020-05-15
申请号:CN202010254884.9
申请日:2020-04-02
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 公开了一种基于对抗学习的模型训练、图片输出方法及装置。基于对抗学习的思想,训练图片修改模型,使得经过图片修改模型修改后的图片既和原图片足够相似(如此,修改后的图片尽可能少的修饰原图片的信息,尤其是原图片包含的文字内容),又可以使得OCR模型无法从修改后的图片中提取出的文字内容与原始图片中的文字内容差别较大。如此,对于经过图片修改模型修改后的图片,一方面不会影响图片的正常使用,另一方面又对OCR模型文字识别的结果造成很大的干扰,保护图片中的文字内容隐私。
-
公开(公告)号:CN114936650B
公开(公告)日:2025-02-18
申请号:CN202210742526.1
申请日:2020-12-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/098 , G06N3/0464 , G06N3/084 , G06F18/2431 , G06F18/27 , G06F21/60 , G06F21/62
Abstract: 本说明书实施例提供一种基于隐私保护的联合训练业务模型的方法和装置,根据该方法,服务器针对实现业务模型的神经网络中的各个网络层,确定扰动矩阵,并用其对网络层的参数进行扰动加密,得到扰动加密模型,分发给各个终端。终端利用扰动加密的模型处理其本地训练样本,得到扰动梯度。并且,终端还在扰动梯度上叠加噪声。通过精心设计噪声的分布,使得经扰动矩阵进行恢复后得到的噪声符合高斯分布,从而满足差分隐私的要求。于是,服务器可以对各个终端发送的含躁梯度进行扰动恢复并聚合,从而更新神经网络模型中的参数。
-
公开(公告)号:CN112541530B
公开(公告)日:2023-06-20
申请号:CN202011409579.9
申请日:2020-12-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/10 , G06F18/23213 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06N3/088
Abstract: 本说明书实施例提供一种针对聚类模型的数据预处理以及利用属性图进行业务实体聚类的方法,基于信息论,提供了一种通过表征向量对属性图进行表征,并利用表征向量与聚类类别的原型向量之间转移的信息损失来训练聚类模型。并且,这种信息损失通过表征向量与基于原型向量确定的映射向量之间的相似性来衡量。进一步地,在确定互信息的过程中,利用经验概率分布代替总体分布的期望,提供一种可以利用经验逼近互信息的方式。该方式得以有效利用信息论,从而提供更有效的利用属性图的业务实体聚类方法。
-
公开(公告)号:CN114936650A
公开(公告)日:2022-08-23
申请号:CN202210742526.1
申请日:2020-12-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种基于隐私保护的联合训练业务模型的方法和装置,根据该方法,服务器针对实现业务模型的神经网络中的各个网络层,确定扰动矩阵,并用其对网络层的参数进行扰动加密,得到扰动加密模型,分发给各个终端。终端利用扰动加密的模型处理其本地训练样本,得到扰动梯度。并且,终端还在扰动梯度上叠加噪声。通过精心设计噪声的分布,使得经扰动矩阵进行恢复后得到的噪声符合高斯分布,从而满足差分隐私的要求。于是,服务器可以对各个终端发送的含躁梯度进行扰动恢复并聚合,从而更新神经网络模型中的参数。
-
公开(公告)号:CN113642731A
公开(公告)日:2021-11-12
申请号:CN202111082998.0
申请日:2020-05-06
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 熊涛
Abstract: 本说明书实施例提供一种基于差分隐私的数据生成系统的训练方法和装置,该数据生成系统包括自编码网络和判别器,方法包括,将真实样本输入自编码网络,得到复原样本;根据真实样本和复原样本的比对,确定样本重构损失。此外,通过自编码网络生成合成样本。将真实样本和合成样本分别输入判别器,得到其分别属于真实样本的第一概率和第二概率。针对判别器,以减小第一损失为目标,以差分隐私的方式在梯度上添加噪声,以调整判别器参数,其中第一损失负相关于第一概率,正相关于第二概率。针对自编码网络,以减小第二损失为目标,在梯度上添加噪声,以调整自编码网络参数,其中第二损失与样本重构损失正相关,与第一损失负相关。
-
公开(公告)号:CN113299295A
公开(公告)日:2021-08-24
申请号:CN202110513396.X
申请日:2021-05-11
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种声纹编码网络的训练方法,包括:获取第一语音片段对应的声学特征和说话人标识;将该声学特征输入声纹编码网络,得到第一编码向量;确定第一训练损失,其负相关于该说话人标识对应的类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;确定第二训练损失,该第二训练损失正相关于第一语音片段与其同类语音片段各自所对应编码向量之间的同类间距离,且负相关于第一语音片段与其异类语音片段各自所对应编码向量之间的第一异类间距离;基于第一训练损失和第二训练损失,训练声纹编码网络和类别权重向量。
-
公开(公告)号:CN111523668B
公开(公告)日:2021-08-20
申请号:CN202010373419.7
申请日:2020-05-06
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 熊涛
Abstract: 本说明书实施例提供一种基于差分隐私的数据生成系统的训练方法和装置,该数据生成系统包括自编码网络和判别器,方法包括,将真实样本输入自编码网络,得到复原样本;根据真实样本和复原样本的比对,确定样本重构损失。此外,通过自编码网络生成合成样本。将真实样本和合成样本分别输入判别器,得到其分别属于真实样本的第一概率和第二概率。针对判别器,以减小第一损失为目标,以差分隐私的方式在梯度上添加噪声,以调整判别器参数,其中第一损失负相关于第一概率,正相关于第二概率。针对自编码网络,以减小第二损失为目标,在梯度上添加噪声,以调整自编码网络参数,其中第二损失与样本重构损失正相关,与第一损失负相关。
-
公开(公告)号:CN113159288A
公开(公告)日:2021-07-23
申请号:CN202110440032.3
申请日:2019-12-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种编码模型训练方法,该方法包括:首先,获取多个训练样本,其中每个训练样本包括表征对应目标对象身份信息的隐私数据和对象标识;然后,将多个训练样本分别输入编码模型中,得到多个特征向量;接着,将多个特征向量分别输入用于确定目标对象身份的分类模型、用于反推隐私数据的解码模型和用于区分不同目标对象的区分模型,以对应确定分类损失、解码损失和区分损失;再然后,以最大化分类损失和解码损失,以及最小化区分损失为目标,对编码模型调参。此外,还披露一种目标对象身份识别方法,利用训练好的编码模型对采集的隐私数据进行编码,并对得到的特征向量进行传输、存储和比对使用。如此,可以有效防止隐私数据的泄漏。
-
公开(公告)号:CN112541593A
公开(公告)日:2021-03-23
申请号:CN202011409592.4
申请日:2020-12-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种基于隐私保护的联合训练业务模型的方法和装置,根据该方法,服务器针对实现业务模型的神经网络中的各个网络层,确定扰动矩阵,并用其对网络层的参数进行扰动加密,得到扰动加密模型,分发给各个终端。终端利用扰动加密的模型处理其本地训练样本,得到扰动梯度。并且,终端还在扰动梯度上叠加噪声。通过精心设计噪声的分布,使得经扰动矩阵进行恢复后得到的噪声符合高斯分布,从而满足差分隐私的要求。于是,服务器可以对各个终端发送的含躁梯度进行扰动恢复并聚合,从而更新神经网络模型中的参数。
-
公开(公告)号:CN112541530A
公开(公告)日:2021-03-23
申请号:CN202011409579.9
申请日:2020-12-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种针对聚类模型的数据预处理以及利用属性图进行业务实体聚类的方法,基于信息论,提供了一种通过表征向量对属性图进行表征,并利用表征向量与聚类类别的原型向量之间转移的信息损失来训练聚类模型。并且,这种信息损失通过表征向量与基于原型向量确定的映射向量之间的相似性来衡量。进一步地,在确定互信息的过程中,利用经验概率分布代替总体分布的期望,提供一种可以利用经验逼近互信息的方式。该方式得以有效利用信息论,从而提供更有效的利用属性图的业务实体聚类方法。
-
-
-
-
-
-
-
-
-