-
公开(公告)号:CN117744133A
公开(公告)日:2024-03-22
申请号:CN202311567771.4
申请日:2023-11-21
Applicant: 重庆邮电大学
IPC: G06F21/62 , G06F17/16 , G06N3/045 , G06N3/096 , G06N3/0442 , G06F16/35 , G06F40/295
Abstract: 本发明属于数据安全技术领域,具体涉及一种基于命名实体的敏感数据持续识别方法及系统;该方法包括:获取带标签的文本数据并对其进行预处理,得到待识别向量;将待识别向量输入到初始敏感数据持续识别模型中进行处理,得到敏感实体概率矩阵;根据敏感实体概率矩阵识别出敏感实体并存储未识别出的实体对应的文本数据;将足量的存储文本数据作为新训练数据集并采用蒸馏学习训练得到新的敏感数据持续识别模型即训练好的敏感数据持续识别模型可以不断完善模型的识别能力,有效提高敏感实体识别的召回率可以不断完善模型的识别能力,有效提高敏感实体识别的召回率,在实际业务中达到针对敏感数据的持续识别效果。