一种基于深度学习技术的敏感信息识别方法

    公开(公告)号:CN114218391B

    公开(公告)日:2024-06-28

    申请号:CN202111637526.7

    申请日:2021-12-30

    摘要: 本发明提供一种基于深度学习技术的敏感信息识别方法,涉及数据识别技术领域,包括以下步骤:获取训练数据集;分别对图像数据、全中文数据集和非全中文数据集训练得到第一、第二和第三分类模型;接受待预测的数据;分别根据待预测的数据的类型输入至第一、第二和第三分类模型,得到标签;获取所有标签,对结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别;对非结构化数据,则将中文分词字符的类别进行敏感信息统计。本发明合理有效,可以通过对原始数据进行特征工程,将数据集输入到对应的分类模型进行训练,得到不同的分类模型,根据待识别的敏感数据类型得到分类标签,对不同类型的数据进行识别,识别准确率高,保护性好。

    基于URL的网络接口聚类方法及装置

    公开(公告)号:CN117828382A

    公开(公告)日:2024-04-05

    申请号:CN202410205392.9

    申请日:2024-02-26

    发明人: 张黎 应超奇

    摘要: 本发明提供一种基于URL的网络接口聚类方法及装置,通过构建待聚类URL地址对应的字典树及其中各个完整路径的特征向量,提高了后续基于该特征向量的聚类算法的准确性;随后根据任一类簇中各个完整路径组的变化区域,确定该类簇对应的精细匹配区域作为字符串匹配的依据,可以筛选出代表功能或模块划分的字符串所在的稳定区域,能够更准确地聚合属于同一网络接口的待聚类URL地址;因此,基于该类簇对应的精细匹配区域,确定该类簇中的多个完整路径的待匹配字符串,对该类簇中的多个完整路径的待匹配字符串进行匹配,从而基于该类簇中多个完整路径之间的匹配结果进行聚合,可以得到更准确的网络接口聚类结果,提升了网络接口聚类的准确性。

    缺失样本数据填充方法、装置、存储介质和电子设备

    公开(公告)号:CN117556267A

    公开(公告)日:2024-02-13

    申请号:CN202410044914.1

    申请日:2024-01-12

    摘要: 本申请提供了一种缺失样本数据填充方法、装置、存储介质和电子设备,属于数据处理技术领域。该方法包括:获取包含缺失数据的初始样本数据;对所述初始样本数据中的缺失数据进行初始填充,形成第一样本数据;将所述第一样本数据导入预设的VAE生成模型中,所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型,选择与所述数据类型相匹配的特征分布模型来生成第二样本数据;从所述第二样本数据中提取与所述初始样本数据中的缺失数据对应的生成数据;将所提取的生成数据按照对应的位置填充至所述初始样本数据。本申请可提高缺失数据预测的准确性。

    基于时序数据异常检测的数据泄露检测方法及装置

    公开(公告)号:CN117195273B

    公开(公告)日:2024-02-06

    申请号:CN202311467568.X

    申请日:2023-11-07

    发明人: 张黎

    IPC分类号: G06F21/60

    摘要: 本发明提供一种基于时序数据异常检测的数据泄露检测方法及装置,通过分别对系统访问量时序数据和各个访问者的单一访问量时序数据进行异常检测,得到各自对应的异常检测结果,当系统访问量时序数据和若干个访问者的单一访问量时序数据存在异常且存在异常的时间区间存在重合时,基于系统访问量时序数据和若干个访问者的单一访问量时序数据中存在异常的时间区间,确定疑似泄漏区间,并对数据操作记录中记录的上述若干个访问者在疑似泄漏区间之前的访问请求信息进行异常行为分析,确定数据泄露检测结果,通过上述对时序指标进行异常检测,并结合其它信息进行溯源佐证的方式,从多个角度全面检测数据泄露行为,提升了数据泄露检测的准确度。

    敏感数据查询方法、装置、存储介质和电子设备

    公开(公告)号:CN117390687A

    公开(公告)日:2024-01-12

    申请号:CN202311685699.5

    申请日:2023-12-11

    IPC分类号: G06F21/62 G06F16/2455

    摘要: 本申请提供了一种敏感数据查询方法、装置、存储介质和电子设备,属于信息安全技术领域。该方法包括:获取待查询数据;基于所述待查询数据获取对应的随机参数、单向函数和特征数据;按照所述单向函数将所述待查询数据与所述随机参数进行运算,得到转换后数据;查询所述转换后数据是否存在于所述特征数据中,并输出查询结果。本申请可以提高在密文状态下的敏感数据查询过程中的安全性。

    基于交集保护的数据处理装置
    6.
    发明公开

    公开(公告)号:CN117171779A

    公开(公告)日:2023-12-05

    申请号:CN202311444078.8

    申请日:2023-11-02

    发明人: 张黎

    摘要: 本发明提供一种基于交集保护的数据处理装置,属于数据处理技术领域,所述装置包括第一参与设备和第二参与设备。本发明的基于交集保护的数据处理装置通过对各样本ID进行可交换加密,可以便于样本ID进行快速安全求交,而对特征数据进行同态加密,便于特征数据进行安全训练或分析,而在在样本ID进行二次可交换加密后,与加密特征数据组成元祖,然后发送给另一方,可以保证样本交集信息不会泄漏,且在密文求交后的ID可直接作为密文样本ID使用,而不需要进行密态对齐,在密文求交后直接得到密态下的交集,也不需要使用特定密态对齐的秘密分享作为交集结果的标记列,提高了数据处理效率。

    机器请求行为识别方法、装置、电子设备和存储介质

    公开(公告)号:CN116663021B

    公开(公告)日:2023-11-03

    申请号:CN202310913126.7

    申请日:2023-07-25

    发明人: 张黎

    摘要: 本发明提供一种机器请求行为识别方法、装置、电子设备和存储介质,通过绝对高频阈值和相对高频阈值,确定待检测IP地址的待检测时间区间,缩小了机器请求行为的判断范围,继而基于待检测IP地址在各个待检测时间区间的请求量、请求的时间间隔和接口数量,确定待检测IP地址在相应待检测时间区间的频次风险值、稳定性风险值和差异性风险值,从而基于上述频次风险值、稳定性风险值和差异性风险值,确定存在机器请求行为的时间区间,实现了请求行为的多维度分析,提升了机器请求行为的识别精度。

    一种关系型数据库的动态脱敏方法

    公开(公告)号:CN112749376B

    公开(公告)日:2023-03-24

    申请号:CN202110246191.X

    申请日:2021-03-05

    IPC分类号: G06F21/31 G06F21/62 G06F16/28

    摘要: 一种关系型数据库的动态脱敏方法,属于数据处理技术领域,方法包括:步骤S01,数据库接收客户端的登录请求并验证登录请求,若验证正确则执行步骤S02,否则重复步骤S01。步骤S02,数据库接收到客户端申请查阅的请求后,获取客户端的查看权限,按数据类型获取客户端所需数据,再按数据类型依次识别客户端所需数据在查看权限外的敏感数据,若均没识别到敏感数据则将客户端所需数据发送到客户端,若有则执行步骤S03。步骤S03,数据库通过脱敏规则依次改写含有敏感数据的每个类型的客户端所需数据的SQL语句。步骤S04,数据库将隐藏了敏感数据的客户端所需数据发送到客户端。本发明对于任何类型的敏感数据都可以实时脱敏,灵活性强,敏感数据保密性高。

    基于双列处理的列加解密方法和装置

    公开(公告)号:CN115374464A

    公开(公告)日:2022-11-22

    申请号:CN202211299010.0

    申请日:2022-10-24

    摘要: 本发明提供一种基于双列处理的列加解密方法和装置,其中方法包括:获取当前应用环境下的数据库描述信息,并基于数据库描述信息确定当前应用环境下使用的数据库是否支持移动数据表中列的位置;若当前应用环境下使用的数据库支持移动数据表中列的位置,且当前的加解密标记为未加密,则在目标数据表中紧邻待加密列之后的位置处插入加密辅助列;读取待加密列中的待加密数据并进行加密,得到待加密列的已加密数据后,将待加密列的已加密数据更新至加密辅助列中;删除待加密列,并将加密辅助列的列名改为待加密列的列名;若当前的加解密标记为已加密,解密方式类似上述加密方式。本发明提高了敏感列加解密过程中数据库的安全性。

    基于多方数据协同的预测模型训练、数据预测方法和装置

    公开(公告)号:CN115186937A

    公开(公告)日:2022-10-14

    申请号:CN202211098758.4

    申请日:2022-09-09

    摘要: 本发明提供一种基于多方数据协同的预测模型训练、数据预测方法和装置,通过在每轮全局训练过程中,各电力部门系统在本地对用电量预测模型进行训练得到模型参数训练值的同时,还确定用电量预测模型的候选剪枝参数,以供数据中心对各电力部门系统传递的模型参数训练值进行聚合,得到当前参数值,并基于各电力部门系统传递的候选剪枝参数确定实际剪枝参数,使各电力部门系统在进行本地训练时可以不必考虑上述实际剪枝参数,降低了需要进行参数更新的参数量,降低了训练难度和训练成本;同时,当各电力部门系统生成的新一轮的模型参数训练值仅包含除当前轮对应的实际剪枝参数以外的其他参数的参数值,降低了数据中心与各电力部门系统之间的通信开销。