Patent search ap:("北京北信源软件股份有限公司") AND inv:"耿星星" Page 1

1.

发明公开
一种使用Apache Spark分类与解析海量日志的方法无效

公开(公告)号：CN106227790A

公开(公告)日：2016-12-14

申请号：CN201610573035.3

申请日：2016-07-19

Applicant: 北京北信源软件股份有限公司

Inventor： 方银春 , 刁志刚 , 耿星星

IPC: G06F17/30

CPC classification number: G06F16/16 , G06F16/1815 , G06F16/35

Abstract: 本发明公开了一种使用Apache Spark分类与解析海量日志的方法。方法包括利用日志数据接口，选取日志文件并将日志文件导入Apache Spark环境中；对日志文件的文件名和说明字段进行词条解析，并读取关键字段；根据决策树分类器，对关键字段进行分类，并形成日志文件的分类信息；根据Hive表结构，基于Scala从日志文件中匹配所需信息形成数据条并将数据条导入Hive表中；从Hive表中读取数据并统计状态信息；分析状态发生的频率、幅度，并形成最终数据状态报告。本发明具有实施简单、更快的解析速度、以及更高的解析准确性等优点。

Patent Agency Ranking