-
公开(公告)号:CN106227790A
公开(公告)日:2016-12-14
申请号:CN201610573035.3
申请日:2016-07-19
Applicant: 北京北信源软件股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/16 , G06F16/1815 , G06F16/35
Abstract: 本发明公开了一种使用Apache Spark分类与解析海量日志的方法。方法包括利用日志数据接口,选取日志文件并将日志文件导入Apache Spark环境中;对日志文件的文件名和说明字段进行词条解析,并读取关键字段;根据决策树分类器,对关键字段进行分类,并形成日志文件的分类信息;根据Hive表结构,基于Scala从日志文件中匹配所需信息形成数据条并将数据条导入Hive表中;从Hive表中读取数据并统计状态信息;分析状态发生的频率、幅度,并形成最终数据状态报告。本发明具有实施简单、更快的解析速度、以及更高的解析准确性等优点。