- 专利标题: 基于BERT模型和K近邻的敏感信息识别方法及系统
-
申请号: CN202010269087.8申请日: 2020-04-08
-
公开(公告)号: CN111581956A公开(公告)日: 2020-08-25
- 发明人: 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方
- 申请人: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心,北京航空航天大学
- 当前专利权人: 国家计算机网络与信息安全管理中心,北京航空航天大学
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 北京远大卓悦知识产权代理事务所
- 代理商 卞静静
- 主分类号: G06F40/279
- IPC分类号: G06F40/279 ; G06F40/216 ; G06F40/242 ; G06F40/126 ; G06F16/335 ; G06F16/35 ; G06K9/62
摘要:
本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。
公开/授权文献
- CN111581956B 基于BERT模型和K近邻的敏感信息识别方法及系统 公开/授权日:2022-09-13