一种实现数据泄露防护的方法和系统

    公开(公告)号:CN107292193A

    公开(公告)日:2017-10-24

    申请号:CN201710379190.6

    申请日:2017-05-25

    CPC classification number: G06F21/6209 G06F17/277 G06F17/30705

    Abstract: 本发明公开了一种实现数据泄露防护的方法和系统,该方法包括:对预处理文本数据进行预处理,形成向量数据;将向量数据作为K-MEDOIDS聚类算法的输入数据并且按照预设规则进行无监督学习,形成聚类模型;通过聚类模型对外发文件进行检查,判断外发文件是否为泄密文件,若是,则不允许外发文件外发,否则,允许外发文件外发。采用了K-MEDOIDS聚类算法,对预处理文本数据进行无监督学习训练,通过聚类模型对外发文件进行检测,从而解决了传统DLP技术中,基础检测技术中关键词查找较死板的问题、高级检测技术中EDM和IDM在修改文件内容后检测不出来的问题,同时K-MEDOIDS算法的类别个数不影响聚类结果,比SVM算法灵活,在替换了关键词的情况下也不会影响文件的检测结果。

Patent Agency Ranking