-
公开(公告)号:CN117520033A
公开(公告)日:2024-02-06
申请号:CN202311455579.6
申请日:2023-11-03
Applicant: 国网山东省电力公司信息通信公司 , 中国海洋大学
IPC: G06F11/07 , G06F16/35 , G06F40/284 , G06F40/30 , G06N3/0455 , G06N3/09
Abstract: 本发明公开了一种基于日志语义向量化和层次聚类的日志解析方法,包括:首先对经过预处理后的原始日志进行分词,利用正则表达式将日志消息中冗余数据去掉。然后,使用BERT将经过分词后的日志数据向量化,计算相似度和距离,最后使用在线层次聚类算法生成日志模板。本发明利用BERT日志语义向量化和层次聚类的日志解析模板提取的算法,可以输入不等长数据,不受日志格式的限制,通过自然语言处理也提取出日志的语义信息,所以适用于不同来源不同组件不同结构日志消息的日志模板的提取,有较高的精确度,且日志解析效率高,满足在线实时解析日志的需要。