一种基于主动学习的恶意PDF文档检测方法

    公开(公告)号:CN112231645A

    公开(公告)日:2021-01-15

    申请号:CN202011241038.X

    申请日:2020-11-09

    Abstract: 本发明涉及一种基于主动学习的恶意PDF文档检测方法,用于检测PDF文件中的恶意文档,属于数据存储安全技术领域。本方法将机器学习方法与恶意PDF文档检测相结合,通过提取PDF文档的结构特征,并运用结构多重映射和结构路径合并方式处理特征,在减少隐蔽攻击的同时还在一定时间内限制了特征漂移。利用全连接深度模型学习恶意PDF文档特征分布,对于识别结果不确定的情况,本发明采用主动学习方法以提升模型性能,并采用共同协议分析的方法选择小部分信息量丰富的样本添加进训练集进行下一轮训练,在不增加太多样本的前提下显著提升模型性能,经训练完毕后的识别器,能够可靠、有效的识别恶意PDF文档。

Patent Agency Ranking