-
公开(公告)号:CN117313160B
公开(公告)日:2024-04-09
申请号:CN202311553385.X
申请日:2023-11-21
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种隐私增强的结构化数据仿真生成方法及系统,该方法包括:步骤一,数据转换阶段:对数据进行规范化预处理;步骤二,概率图模型构建阶段:基于贝叶斯形式对所述步骤一进行规范化预处理的数据构建变分推断的后验分布,利用斯坦因变分梯度下降方法得到描述结构化数据特征间的关联关系,在引入差分隐私噪声时,采用蒙特卡洛估计算法自动获得每步更新所需添加的噪声量;步骤三,数据生成阶段:将所述步骤二得到的关联关系作为度量集合,生成与真实数据更加精确的仿真数据。本发明的有益效果是:本发明方法避免了在应用DP‑SGD时对梯度进行剪裁,不仅避免了剪裁参数的选择,而且缓解了梯度剪裁对推断过程的不利影响。
-
公开(公告)号:CN117313160A
公开(公告)日:2023-12-29
申请号:CN202311553385.X
申请日:2023-11-21
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种隐私增强的结构化数据仿真生成方法及系统,该方法包括:步骤一,数据转换阶段:对数据进行规范化预处理;步骤二,概率图模型构建阶段:基于贝叶斯形式对所述步骤一进行规范化预处理的数据构建变分推断的后验分布,利用斯坦因变分梯度下降方法得到描述结构化数据特征间的关联关系,在引入差分隐私噪声时,采用蒙特卡洛估计算法自动获得每步更新所需添加的噪声量;步骤三,数据生成阶段:将所述步骤二得到的关联关系作为度量集合,生成与真实数据更加精确的仿真数据。本发明的有益效果是:本发明方法避免了在应用DP‑SGD时对梯度进行剪裁,不仅避免了剪裁参数的选择,而且缓解了梯度剪裁对推断过程的不利影响。
-
公开(公告)号:CN117236420A
公开(公告)日:2023-12-15
申请号:CN202311509786.5
申请日:2023-11-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/098 , G06F18/2113 , G06F18/214 , G06F18/2433 , G06F18/27 , G06F21/60 , G06F21/62 , G06Q40/03 , H04L9/08
Abstract: 本发明公开了一种基于数据子集的纵向联邦学习异常数据调试方法及系统,包括:发起方基于纵向联邦学习建模并进行联邦模型训练;利用训练后的联邦模型获取数据集中的问题数据子集,问题数据子集在联邦模型中的预测准确率低于其他数据子集在联邦模型中的预测准确率;对问题数据子集进行基于特征描述组合的筛选,获取带有异常描述的问题数据子集;发起方或参与方基于带有异常描述的问题数据子集进行数据溯源和纠正,并在纠正后重新训练联邦模型。本发明为隐私保护的联邦数据子集评估技术,在保证数据隐私下对联邦数据子集评估指标进行正确计算,形成基于数据子集的联邦学习调试方法,自动化定位异常数据,解决联邦学习模型表现异常的问题。
-
公开(公告)号:CN115169252B
公开(公告)日:2022-12-13
申请号:CN202211086686.1
申请日:2022-09-07
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种结构化仿真数据生成系统及生成方法,所述系统包括数据预处理单元以及训练和生成单元,所述数据预处理单元用于将原始数据中的每个样本转换成向量表示,并且在转换的过程中建模贝叶斯网络用以描述特征间的关联关系;所述训练和生成单元利用原始数据转换后的向量表示进行训练,得到仿真数据生成模型,利用所述仿真数据生成模型生成仿真数据记录。本发明系统和方法能够同时生成含有连续型特征和离散型特征的仿真数据记录;针对生成仿真数据,既保持了与原始数据一致的数据分布,也保证了与原始数据一致的特征间关联关系;同时提出一种根据所需条件生成仿真数据的方法,能够根据不同的仿真数据应用场景生成分析所需的仿真数据记录。
-
-
-