基于部分标记的异常日志自动识别方法和装置

    公开(公告)号:CN113239684A

    公开(公告)日:2021-08-10

    申请号:CN202110626278.X

    申请日:2021-06-04

    Applicant: 清华大学

    Abstract: 本申请提出了一种基于部分标记的异常日志自动识别方法,涉及异常日志识别技术领域,其中,该基于部分标记的异常日志自动识别方法包括:对实时日志进行预处理,得到预处理后的日志,其中,预处理包括过滤掉实时日志中的变量单词;使用词袋模型对预处理后的日志进行特征提取,采用词频‑逆位置频率加权方法将预处理后的日志转换成特征向量;使用预先训练的PU learning异常检测器对特征向量进行异常检测,得到异常检测结果。采用上述方案的本发明解决了现有方法的灵活性差、工作量大、无法识别未知的异常类型、准确率低的技术问题,实现能够基于部分标记的日志训练模型,在线识别异常日志,以找跟异常相关的原因,并且根据异常日志来及时纠错止损的目的。

    非结构化文本日志流的摘要提取方法和装置

    公开(公告)号:CN112463957B

    公开(公告)日:2023-06-02

    申请号:CN202011476332.9

    申请日:2020-12-14

    Applicant: 清华大学

    Abstract: 本申请提出一种非结构化文本日志流的摘要提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,并从日志模板库中获取与待处理日志匹配的目标日志模板;对待处理日志和目标日志模板进行日志三元组抽取,获取日志三元组;对日志三元组进行排序,根据排序结果获取生成待处理日志的摘要。由此,解决海量日志的重要信息抽取的问题,不需要对文本数据做标注,用于在线服务的自动、无监督的端到端日志摘要提取。

    系统日志模板的在线提取方法和装置

    公开(公告)号:CN112463933A

    公开(公告)日:2021-03-09

    申请号:CN202011476333.3

    申请日:2020-12-14

    Applicant: 清华大学

    Abstract: 本申请提出一种系统日志模板的在线提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,将待处理日志在预设的日志模板库中进行匹配;在没有匹配到日志模板的情况下,使用已训练的单词分类器对待处理日志中的每一个单词做分类,获取模板单词和变量单词;将变量单词替换成目标标识符,将目标标识符和模板单词组合成文本生成新日志模板,并存储在日志模板库中。由此,能够自动化的提取日志模板,有利于后续的异常检测,故障预测等日志分析任务的开展。

    非结构化文本日志流的摘要提取方法和装置

    公开(公告)号:CN112463957A

    公开(公告)日:2021-03-09

    申请号:CN202011476332.9

    申请日:2020-12-14

    Applicant: 清华大学

    Abstract: 本申请提出一种非结构化文本日志流的摘要提取方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理日志,并从日志模板库中获取与待处理日志匹配的目标日志模板;对待处理日志和目标日志模板进行日志三元组抽取,获取日志三元组;对日志三元组进行排序,根据排序结果获取生成待处理日志的摘要。由此,解决海量日志的重要信息抽取的问题,不需要对文本数据做标注,用于在线服务的自动、无监督的端到端日志摘要提取。

Patent Agency Ranking