日志异常检测：LLM vs.传统方法

每个大型软件系统都会生成日志，每天数百万行记录着事件的发生时间、地点和原因。当出现问题时，这些日志通常是工程师首先查看的内容。但是，要手动筛选数百万行日志？这根本不可能。

这就是自动化日志异常检测的用武之地。随着 GPT-4 和 LLaMA 等大型语言模型 (LLM) 的兴起，一个自然而然的问题也随之出现：

LLM在检测系统日志异常方面能否超越传统方法？

1、方法和数据集

我花了数周时间，在四个公开数据集上对三类方法进行了基准测试，以找出答案。以下是我的发现。

1. 传统流程：解析后分类经典方法有两个步骤。日志解析（使用Drain等工具）将混乱的日志文本转换为结构化模板。然后机器学习分类器（随机森林、SVM等）从这些模板中学习模式。

优点：快速、便宜、易于理解。 **缺点：**日志格式变化时会失效，需要标注数据。

2. 微调Transformer：BERT及其同类可以直接在原始日志文本上微调预训练的语言模型，如BERT、RoBERTa和DeBERTa，无需解析。

优点：准确率高，能处理格式变化。 **缺点：**需要标注训练数据，推理速度较慢。

3. 带有提示工程的LLM：零样本检测最新方法：只需询问GPT-4或LLaMA某个日志序列是否异常。无需训练。

优点：无需标注数据，能理解上下文。 **缺点：**成本高、速度慢、结果不一致。

我使用的四个来自LogHub的公开数据集：

这些都是生产系统中的真实日志——而不是玩具示例。

我的主要贡献之一是一种名为结构化日志上下文提示（SLCP）的提示技术。我不只是问"这是否异常"，而是向LLM提供：

这个简单的结构使GPT-4的零样本准确率提高了2.9-3.1个百分点。

结果：令人惊讶的真相

DeBERTa-v3在所有数据集上达到95-99% F1。如果你有标注的异常数据，这仍然是最佳方法。

GPT-4配合SLCP可以在不接触任何标注示例的情况下达到88-91% F1。这对于标注异常数据稀缺的现实场景非常重要。

Drain + 随机森林以接近零延迟（每次预测0.3毫秒）和零API成本达到86-95% F1。对于每秒处理数百万条日志的高吞吐量系统，这仍然是实用选择。

成本-准确率权衡

GPT-4给你最佳的无需训练准确率，但成本显著。对于每天处理100万条日志的系统，仅异常检测每天就要花费8400美元。

使用传统方法（Drain + RF），当：

使用微调Transformer，当：

使用LLM（GPT-4 + SLCP），当：

也许最有趣的发现是性能如何随着可用标签数量而扩展：

只需1%的标签，GPT-4 + SLCP就能达到89.1% F1。DeBERTa需要25%的标签才能达到相同的性能。传统方法需要10%的标签才能具有竞争力。

这意味着LLM在冷启动场景中提供最大价值——当你为新系统设置监控且没有历史异常标签时。

这项基准研究只是一个开始，完整论文 ，代码和实验。

我正在探索的领域：

汇智网翻译整理，转载请标明出处