用LLM分析AI机器人流量

网站分析中正出现一个日益严重的盲点：AI助手流量背后的用户意图。

每一天，ChatGPT、Claude、Perplexity和其他AI工具都会访问文档、浏览产品页面，并代表真实用户搜索答案来访问内容。虽然现代分析平台拥有复杂的机器人过滤机制，可以自动排除垃圾机器人和恶意爬虫[1]，但它们在AI助手方面面临着不同的挑战：这些工具代表真正的用户需求，但它们的流量模式与直接的人工浏览根本不同。

问题不仅仅是关于过滤，而是关于上下文丢失。当用户向AI助手询问"如何将支付处理与[产品X]集成？"或提示它"比较[服务Y]的定价计划"时，生成到这些网站的机器人流量代表了真实的用户意图。而且，随着助手越来越多地基于实时网络搜索和检索来生成答案，而不仅仅是依赖其预训练的LLM权重，这些访问正持续地、无形地并以越来越高的频率发生。

此外，大多数用户直接在AI界面内收到最终答案，而无需点击进入原始网站[2]。这创造了一种"隐形访问"现象，内容提供价值，AI系统访问和处理信息，但传统分析要么什么都不记录，要么剥离了用户实际试图完成的关键上下文。

最近的研究表明，对于基于知识的网站，AI爬虫流量占总服务器请求的5-10%[2]，但此流量要么被聚合成通用的"机器人"类别，要么被完全排除。这种区别很重要：较新的AI爬虫通常不在标准机器人过滤列表中[3]，即使被检测到，分析框架也会将它们视为搜索引擎爬虫，而不是人类问题和需求的代理。

0、目标

本文提出了一个从AI机器人流量中提取可操作情报的实用框架，将其不视为需要过滤的噪声，而是视为揭示用户意图的互补信号。

阅读本文后，您将了解：

为什么AI机器人流量包含与传统分析不同的情报？ AI介导的用户交互与直接人工浏览有何根本不同，尽管是非人类流量，但它们为何有价值，以及当前分析框架为何未能捕获这种价值
可以从AI机器人访问模式中提取什么洞察？ 机器人流量中的哪些具体模式揭示了用户问题、文档空白和产品理解问题，并辅以实际数据分析支持
组织如何将AI机器人洞察付诸实践？ 将AI机器人数据分段、分析并集成到产品、内容和营销工作流中的实用方法，并提供实际实施的具体示例

无论您是试图了解用户需求的产品经理、寻求新信号源的数据分析师，还是优化文档的内容策略师，这个框架都将帮助您将AI机器人流量不视为测量问题，而是视为用户情报的未开发来源。

1、框架概览

1.1 核心创新：为什么LLM胜过聚类

大多数团队试图通过URL规则、正则表达式或基于嵌入的聚类来了解用户行为。问题：这些方法是描述性的，而非解释性的。它们将表面上看起来相似的点击分组在一起，但它们无法重建会话背后的故事。

例如，基本聚类可能会将"定价"页面访问和"登录"尝试简单地归为一组，因为它们共享常见关键词或按顺序发生。这意味着您无法区分通过销售漏斗转化的新潜在客户与执行常规任务的现有客户。评估产品与已经使用它的人之间的关键区别在您的分析中完全不可见。

该框架翻转了方法：

不使用预定义规则，而是使用LLM作为推理引擎
不分析孤立的页面浏览，而是分析完整旅程：访问了哪些页面、以什么顺序以及持续了多长时间
不使用固定分类法，而是让模型在流量中发现新模式时创建动态标签和类别
不使用通用标签，而是要求模型解释会话：此查询背后是谁，他们试图做什么？

换句话说，我们从"此会话访问了/pricing和/docs"转变为"这是一个基于API限制评估集成可行性的开发人员，然后检查定价是否适合其用例。"

1.2 工作原理：四阶段过程

该框架将每次AI机器人访问视为面包屑踪迹，将它们重建为连贯的会话，以解码提示背后的人类意图。

图1 — 框架概览：从原始机器人日志到意图分类

阶段1：将信号与噪声分离

分析从源开始：服务器日志。与依赖JavaScript跟踪像素和客户端会话的传统网络分析不同，AI助手访问在您的基础设施提供商维护的原始HTTP请求日志中留下踪迹，无论是像Vercel这样的边缘服务、像Cloudflare这样的CDN还是您的源服务器。

典型的日志条目可能如下所示：

185.72.144.53 yourwebsite.com - [12/Feb/2025:14:32:09 +0000]
"GET /features/our-brand-new-awesome-feature HTTP/1.0" 200 64312 "-"
"Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36
(compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

原始数据被过滤以仅保留代表实际用户查询的AI助手，删除来自SEO爬虫、正常运行时间监视器、垃圾机器人和内部自动化的噪声。

阶段2：重建用户旅程

单个点击按IP地址和时间接近度分组。活动自然中断（例如，5分钟间隔）表示新会话的开始。这将您的机器人日志从断开连接的URL列表转换为一组浏览叙述，每个叙述代表某人试图了解您的产品或服务的某些内容。

阶段3：语义丰富

为了解码神秘的URL，系统抓取访问的每个唯一页面，并使用轻量级LLM生成语义标题和摘要。这将技术路径（例如，/docs/v2/auth）转换为所消耗概念的清晰序列，为LLM分析创建人类可读的故事线。

阶段4：推断用户意图

推理LLM分析完整的丰富旅程来回答三个核心问题，为每个分类分配置信度得分：

主题： 确切主题是什么？（例如，"支付集成错误"）
角色： 用户是谁？（例如，开发人员与决策者）
目标： 他们试图做什么？（例如，评估与主动实施）

最后阶段将原始数据转换为动态的、可量化的洞察，随着新内容和用户行为的出现而自动演变。

2、案例研究：数据实际揭示了什么

让我们看看该框架在实践中应用时会发生什么。对于此分析，在24小时期间从三个试点网站收集了服务器日志，并过滤以仅隔离ChatGPT机器人流量。对于此分析，我们将深入研究Tradevision.io，一个股票和期权交易平台的数据平台。

2.1 AI介导会话的剖析

在检查数千个会话的聚合模式之前，让我们追踪单个旅程，以了解会话重建和基于LLM的分类揭示了什么以及它为何重要。

图2 — 重建的AI助手会话示例

该框架的LLM分类器分析此序列并产生：

主题： 交易平台评论
用户角色： 决策者 （置信度：90/100）
意图类型： 比较 （置信度：92/100）
推理： 会话包括多个专注于比较和评估交易平台（AI驱动的工具、2025年平台排名、移动与桌面以及平台评论）的TradeVision博客页面。这表明决策制定、比较导向的意图，而不是学习或实施。

此会话可能反映了用户询问类似 "2025年移动端最好的AI交易平台是什么？" 的问题助手一步步收集比较信息，从一般指导到具体建议再到产品细节。

接下来的章节将此分析扩展到数千个会话，以揭示用户分段、内容性能和优化优先级的更广泛模式。

2.2 主题分布：识别内容机会

流量数据揭示了两个主导主题：对期权交易教育的强烈需求和对平台比较内容的一致兴趣。了解这些模式有助于识别内容投资为tradevision.io的AI搜索可见性提供最高回报的位置。

图3显示，期权交易内容捕获了三个相关主题的400多个会话："期权交易策略"（153）、"期权交易工具包"（144）和"期权交易概念"（119）。这三个主题占873个会话总数的47%。

图3 — tradevision.io的前20个主题

图4中显示的主题-意图关系显示了明显的模式。期权内容吸引纯学习意图，而"交易平台评论"显示平衡分布，表明内容成功服务于发现和评估两个阶段。

图4 — 主要主题与意图类型热力图

2.3 用户分段：了解用户角色、意图和行为模式

当我们在用户级别分析分段时，发现变得更加有力。

图[8]显示，最终用户占大多数流量，并表现出93.9%的学习意图，几乎没有比较（5.4%）。决策者显示相反的模式：60.4%的比较意图，次要学习（39.6%）。

这些根本不同的浏览行为反映了考虑旅程中的不同阶段，最终用户建立知识，决策者积极评估替代方案。

图8 — tradevision.io按用户角色的意图类型分布

3、为什么这很重要：战略含义

3.1 零点击盲点

对于Tradevision，AI助手占期权交易策略内容所有会话的17%。然而，传统分析注册零访问、零参与、零价值。然而，真实用户收到了答案，而AI系统开始将TradeVision与期权交易专业知识联系起来。

这是核心挑战：内容提供业务价值而不激活传统的成功指标。仅专注于直接流量的公司正在测量用户如何实际发现、评估和理解其产品的越来越小的一部分。该框架揭示了这一隐藏需求。

3.2 早期信号检测作为竞争优势

AI助手在潜在客户承诺访问网站、试用产品或联系支持之前很久就捕获用户意图。

考虑TradeVision的情况。通过分析AI搜索行为，他们检测到平台比较页面的决策者激增，但实际上实施软件的意图几乎为零。传统漏斗分析只会将其视为"跳出流量"，但AI信号揭示了潜在问题：隐藏的入门空白？

这种信号允许预测策略：

修复摩擦在升级为支持票证之前
扩展内容在功能请求堆积之前
声明所有权在竞争对手甚至注意到趋势之前

复合效应： 最重要的是，这种先发优势随时间复合。当AI助手持续引用TradeVision进行期权交易时，它们建立了深度的心理联想。后来进入市场的竞争对手面临更陡峭的挑战：他们不仅要匹配产品，还要推翻对您有利的既定算法偏差。

3.3 AI可发现性：新游戏

虽然传统SEO专注于搜索引擎结果页面上的可见性，但AI可发现性专注于检索和引用。目标是成为助手生成答案时使用的主要来源，通常用户无需访问网站。

这种转变要求我们优先考虑结构而非关键词。

TradeVision例证了这种成功。他们的内容表现良好不是由于反向链接量，而是因为它被架构为综合，因为它提供自包含的、全面的答案。相反，将信息分散到多个页面的内容策略在AI介导的发现中表现不佳。

提出的框架允许公司审计其数字足迹，识别哪些资产成功服务于这个新的发现层，哪些对最重要的算法不可见。

4、结束语

AI助手流量代表了我们如何理解在线用户行为的范式转变。传统分析告诉我们用户访问我们的网站时做什么，他们查看哪些页面，他们停留多长时间，他们点击哪里。当适当分析时，AI机器人流量揭示了更根本的东西：用户试图完成什么在他们决定是否访问之前。

这些洞察可以在团队之间付诸实践。

产品经理可以识别助手反复访问的重复变通方法或摩擦点，并相应地确定功能优先级
内容团队可以识别助手仍难以找到清晰答案的高流量主题，表示文档空白
营销和销售可以了解用户在登陆定价页面之前很久就依赖的比较模式和评估标准
工程团队可以揭示技术障碍，如速率限制、认证怪癖、对爬虫不友好的端点[1][5]

存在局限性。会话归因仍然不精确，因为单个用户查询可以在不同页面上触发多个机器人请求。意图推断有自然边界：序列揭示可能的目标，但没有原始提示，确定性是不可能的。而且随着模型和检索系统的改进，AI行为本身也在发展，要求框架不断适应。

原文链接: Understanding User Intent Through AI Bot Traffic: A Practical Framework

汇智网翻译整理，转载请标明出处