基于最大频繁模式的动态规则库构建方法
摘要:
本发明涉及一种基于最大频繁模式的动态规则库构建方法,包括以下步骤:输入Web日志数据集,并对其进行数据过滤,将时间格式转化为时间戳,将IP和URL映射为数字;进行用户识别和会话识别,构造WASD;遍历WASD的每行,过滤出每个用户的近期访问行为,构成该用户的近期访问序列,进而由所有用户的近期访问序列构成DWASD;构造Spark运行环境变量sc;计算min_support;对前缀进行权重计数,并提取频繁1项集;遍历频繁1项集,递归寻找频繁项集;计算最大频繁项集,得到基于最大频繁模式的动态规则库。该方法有利于降低计算量,快速有效地构建出更加具有时效性的规则库。
公开/授权文献
0/0