-
公开(公告)号:CN113239684A
公开(公告)日:2021-08-10
申请号:CN202110626278.X
申请日:2021-06-04
Applicant: 清华大学
Inventor: 孟伟彬 , 刘莹 , 裴丹 , 菲德利阁·扎特·特里尼达 , 何林
IPC: G06F40/279 , G06F40/186 , G06K9/62 , G06N3/08
Abstract: 本申请提出了一种基于部分标记的异常日志自动识别方法,涉及异常日志识别技术领域,其中,该基于部分标记的异常日志自动识别方法包括:对实时日志进行预处理,得到预处理后的日志,其中,预处理包括过滤掉实时日志中的变量单词;使用词袋模型对预处理后的日志进行特征提取,采用词频‑逆位置频率加权方法将预处理后的日志转换成特征向量;使用预先训练的PU learning异常检测器对特征向量进行异常检测,得到异常检测结果。采用上述方案的本发明解决了现有方法的灵活性差、工作量大、无法识别未知的异常类型、准确率低的技术问题,实现能够基于部分标记的日志训练模型,在线识别异常日志,以找跟异常相关的原因,并且根据异常日志来及时纠错止损的目的。
-
公开(公告)号:CN112463957B
公开(公告)日:2023-06-02
申请号:CN202011476332.9
申请日:2020-12-14
Applicant: 清华大学
Inventor: 孟伟彬 , 刘莹 , 裴丹 , 菲德利阁·扎特·特里尼达 , 何林
IPC: G06F16/34 , G06F40/186 , G06F40/295
Abstract: 本申请提出一种非结构化文本日志流的摘要提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,并从日志模板库中获取与待处理日志匹配的目标日志模板;对待处理日志和目标日志模板进行日志三元组抽取,获取日志三元组;对日志三元组进行排序,根据排序结果获取生成待处理日志的摘要。由此,解决海量日志的重要信息抽取的问题,不需要对文本数据做标注,用于在线服务的自动、无监督的端到端日志摘要提取。
-
公开(公告)号:CN112463933A
公开(公告)日:2021-03-09
申请号:CN202011476333.3
申请日:2020-12-14
Applicant: 清华大学
Inventor: 孟伟彬 , 刘莹 , 裴丹 , 菲德利阁·扎特·特里尼达 , 何林
IPC: G06F16/33 , G06F16/35 , G06F40/186 , G06N3/08
Abstract: 本申请提出一种系统日志模板的在线提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,将待处理日志在预设的日志模板库中进行匹配;在没有匹配到日志模板的情况下,使用已训练的单词分类器对待处理日志中的每一个单词做分类,获取模板单词和变量单词;将变量单词替换成目标标识符,将目标标识符和模板单词组合成文本生成新日志模板,并存储在日志模板库中。由此,能够自动化的提取日志模板,有利于后续的异常检测,故障预测等日志分析任务的开展。
-
公开(公告)号:CN112463957A
公开(公告)日:2021-03-09
申请号:CN202011476332.9
申请日:2020-12-14
Applicant: 清华大学
Inventor: 孟伟彬 , 刘莹 , 裴丹 , 菲德利阁·扎特·特里尼达 , 何林
IPC: G06F16/34 , G06F40/186 , G06F40/295
Abstract: 本申请提出一种非结构化文本日志流的摘要提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,并从日志模板库中获取与待处理日志匹配的目标日志模板;对待处理日志和目标日志模板进行日志三元组抽取,获取日志三元组;对日志三元组进行排序,根据排序结果获取生成待处理日志的摘要。由此,解决海量日志的重要信息抽取的问题,不需要对文本数据做标注,用于在线服务的自动、无监督的端到端日志摘要提取。
-
-
-