测试框架：从SEO到AEO

至少从2015年开始，当Pinterest工程师发布他们的SEO测试方法以来，SEO测试市场不断发展，多家供应商提供让实施SEO A/B测试变得简单的产品。SEO测试使用统计分析来评估网站变更，采用基于URL的随机化、分层抽样，并以自然流量作为主要KPI。

随着答案引擎使用量的增长，对AEO（答案引擎优化）测试的需求也在增加。让我们深入探讨AEO测试的潜在选项，通过网页的统计A/B测试来确定变更是否能带来AEO可见度的增量提升。

在本文中，"LLM"和"答案引擎"（ChatGPT、Perplexity、Copilot、DeepSeek、Grok、Claude、Google AI Mode、Google AI Overviews、Gemini等）可互换使用。

1、潜在指标

我们需要确定哪些指标足够可靠，能够判断趋势是否因测试而发生变化。AEO（以及越来越多的SEO）受零点击搜索影响。这意味着答案引擎（和搜索引擎）中的大量可见度不会转化为网站流量。然而，正是流量带来了可衡量的下游指标。那么AEO测试应该考虑哪些指标？以下是值得考虑的潜在指标。

我们将基于以下标准评估这些指标：

将指标与网站URL关联的能力，并最小化选择偏差
每个测试的样本量 — 越多越好，越能检测测试组和对照组之间的差异
低波动系数 — 换句话说，指标是否足够稳定？

1.1 LLM引荐访问

定义

LLM引荐访问是衡量有多少用户通过LLM/答案引擎访问网站的指标。这些会在你网站的分析渠道中显示为"引荐来源"。当用户点击引用并访问该页面时，来自LLM网络浏览器（如chatgpt.com）的流量会被记录为引荐。你可以将这些访问归类到网站分析工具中的"LLM引荐"细分中。这是值得跟踪的有价值流量，因为它是来自LLM到你网站的第一方数据，可以清晰了解用户在与答案引擎对话后如何与网站互动。重要的是要知道，LLM引荐流量不计算来自LLM应用的流量，后者被跟踪为直接流量。这里有一个教程，介绍如何在你的网络分析工具中设置这个细分。

基于URL的测试能力？

LLM引荐流量确实记录了着陆页，因此你可以按着陆页将引荐流量分为测试组和对照组。

样本量

许多网站可能有足够的LLM引荐流量来进行测试。你可以检查样本量，并根据LLM引荐流量的水平估计检测差异需要多长时间。你可以通过测量网站LLM引荐细分中的每周访问趋势（尽可能长的回溯窗口）来做到这一点。然后将这些数据输入LLM，询问如果这些页面是分组测试的一部分，检测差异需要多长时间。LLM引荐流量通常比SEO访问量低，因此AEO测试达到显著性所需的时间比SEO测试更长。

还要注意，你不需要考虑整个LLM引荐渠道的样本量，而是每个测试的样本量。你可能只会进行影响部分接收LLM流量的着陆页的变更。

波动性

对于你的网站，检查LLM引荐流量，看看是否显示相对稳定的趋势和低波动性，这将使其适合相关性分析。你可以通过以下方式：1）创建细分 2）测量尽可能长的回溯窗口内来自这些引荐来源的每周访问趋势 3）计算变异系数（越小越好），以及你想测试的着陆页URL的样本量（这里越多越好）。

优缺点

这是一个很好的指标，因为它关注的是你可以在网站分析中观察到的内容。它与SEO测试非常相似，但由于样本量较小，达到显著性需要更长时间。

1.2 LLM品牌提及或引用

定义

品牌提及是你的品牌被包含在LLM响应中的频率。例如，耐克品牌可能有兴趣知道在关于鞋子或运动服装的提示中，"Nike"在LLM响应中被提及的频率。

品牌引用是你的品牌在LLM响应中被引用的频率。引用会包含一个到你网站的链接，用户可以点击。

品牌提及和引用是第三方数据点，因为LLM和Google不直接向公司提供这些数据（后面提到的Bing除外）。你也无法在网络分析工具中获取这些数据，因为这些是站外指标。

基于URL的测试能力？

品牌提及与特定URL无关。可能可以将特定提示与测试匹配，但这会在测试设置中引入选择偏差，因为我们事先不知道页面会为哪些提示排名。提示也不能在测试期间添加或删除。所以除非有人能想到一种方法将LLM中的品牌提及与特定网站URL关联起来，否则品牌提及不建议作为统计A/B AEO测试的KPI来衡量网站上的可测量差异。

然而，引用可以与URL测试组关联。无论用户是否点击引用，引用都是可信度的信号，比LLM中的提及更有分量，因为链接更突出，有时还伴有品牌标志。例如，Claude中的这个引用有DataCamp的标志：

尽管引用是比LLM引荐访问更高漏斗的KPI，但这是AEO测试的潜在候选指标。

市场上有几种提供提及和引用数据的工具。seoClarity、Profound、Botify是其中的几个 — 甚至Bing网站管理员工具也有引用数据。检查一下你可以访问哪些跟踪LLM中品牌引用的供应商。你需要数据显示：1）你网站的被引用URL，2）引用的日期，3）引用数量 4）被引用的提示，以及5）引用提供商（无论是Gemini、ChatGPT还是其他）。

如果供应商给你一个引用的整体可见度图表，那很好，但你需要有时间戳的URL与引用关联才能使其工作。AEO A/B测试（就像SEO测试一样）是关于切分一组测试URL和一组对照URL，并确保这些URL组在测试开始前有相似的趋势，以检测测试开始后趋势是否有差异。要做到这一点，你不能只有域名引用数量的总体概述。理想情况下，你应该有至少3个月的每周引用数据趋势。

样本量

一旦你有了这些数据，像任何指标一样，你需要确保每个测试的样本量足够大。这可能意味着只有足够引用数据的页面才有资格参与测试。考虑你想在哪些页面上测试，专门检查这些页面的引用波动性和样本量。如果不错，就继续测试。如果样本量小，你可能需要运行几周的测试。

与任何类型的A/B SEO测试一样，你会想避免单页测试，倾向于AEO测试的模板测试。LLM引荐流量和SEO流量的数量可能远高于引用数据，因此更重要的是每个测试组包含更多页面。

波动性

品牌提及和引用在以下方面存在波动性：1）跟踪的提示响应，2）人们提出的提示（来自Sparktoro 1月份研究的来源）。

"ChatGPT或Google AI在100次查询中产生相同品牌列表的几率小于1/100。[...] 趋势在约1000次提示后出现，但用户提示的变异性仍然是个问题 — 搜索相同主题的用户仅显示0.081的语义相似度（几乎没有）。"

— Rand Fishkin

研究表明，如果有足够大的规模每天跟踪数千次提示数千次，趋势就会显现。但是，这种大规模提示跟踪的规范化是否足以进行测试？你需要通过从提供商获取数据并将其通过工具运行来查看波动系数，为你的网站验证这一点。

优缺点

品牌提及不能可靠使用，但可以作为站外AEO工作的领先指标。品牌引用是一个有趣的考虑指标，但需要人工努力，因为市场上还没有测试工具将其作为指标。

1.3 来自Google Search Console的SEO访问/点击

定义

来自Google Search Console的SEO访问或点击是传统SEO测试使用的相同指标。SEO访问是从搜索引擎访问你网站的次数。对于AEO测试，这可能是一个值得考虑的指标，因为AEO和SEO之间存在相似之处。

对于大多数网站，LLM引荐访问和自然/有机搜索访问之间应该存在正相关。AEO建立在传统SEO之上，因为答案引擎不在索引中存储信息（来源和来源）。LLM通过检索增强生成来增强其模型响应，这意味着代表用户进行搜索，响应是根据在搜索引擎中排名良好的内容制定的。

基于URL的测试能力？

是的，Google Search Console捕获着陆页的点击，网络分析报告来自搜索引擎的着陆页访问。

样本量

SEO访问或点击可能是你可用的任何指标中最大的样本量。检查你网站的SEO流量和LLM流量是否一起变化/具有统计显著的中度到高度正相关（p < 0.01）。如果属实，那么你可以将SEO访问用作AEO测试的代理指标，你的测试将更快达到显著性，因为SEO访问通常比LLM访问量更大。这将是AEO测试最快达到显著性的KPI。

波动性

与其他指标一样进行波动性分析；可能由于大样本量，波动性会很低。

优缺点

很好的使用指标，只需确保SEO和AEO流量相关。你可以使用我的免费Partyrock应用在这里检查流量相关性。

1.4 来自语义/基础查询的SEO点击

定义

Bing和Google将传统搜索与AI搜索混合在一起。从这些搜索引擎过滤对话或语义查询的数据可能是一个值得探索的指标。

基于URL的测试能力？

Bing网站管理员工具提供AI性能数据，包括带时间戳的引用和基础查询。但是，报告不将时间戳与URL关联，所以你不能用它进行AEO测试。

Google Search Console在其报告中没有清晰地提供AI Overviews或AI Mode数据，但有一个潜在的变通方法。在Google Search Console中查看查询数据时，我们可以仅按语义查询过滤，这给出了可能导致AI Overviews视图或AI Mode对话的查询的代理视图。然而，这些数据经过大量抽样。尽管如此，让我们看看仅语义查询是否能产生有助于理解Google中AEO性能的相关趋势。

样本量

检查你想测试的页面类型是否有足够的点击数据。在GSC中过滤到仅语义查询时，可能比供应商的引用数据有更多点击数据。这使其成为AEO测试探索的好选择。

波动性

与其他指标一样进行波动性分析；可能由于大样本量，波动性会很低。

1.5 LLM机器人访问

定义

LLM机器人访问表示LLM访问你网站的次数。这些数据记录在你网站的服务器日志中。

基于URL的测试能力？

是的，LLM机器人访问包括被访问的URL。Botify提供AI机器人爬取计数的URL级别报告，带时间戳，时间范围灵活。

样本量

LLM机器人文件通常很大，所以这里不缺样本量。

波动性

使用此指标需要一些人工努力，因为需要设置每个测试/对照URL细分。检查每周趋势的波动性以及哪些页面类型被爬取得最多/最少。如果波动性趋势低，那么你可能会考虑旨在增加机器人爬取的测试，例如专门用于增加LLM检索增强生成的测试。

优缺点

在传统SEO中，机器人活动与真实用户行为之间没有相关性。在AEO中，有可能看到由真实用户提示导致的机器人请求，因此机器人活动与真实用户行为之间可能存在更多相关性。这需要进一步验证测试。

市场上没有测试工具，所以此指标需要设置手动工作流来进行测试设置和分析。

2、指标建议总结

LLM引荐流量是AEO是否为网站带来更多流量的真实来源，可以进行统计测量
SEO流量与AEO流量相关，应被视为AEO测试的有效指标，这也将有利于SEO，并且由于更高的样本量将更快达到显著性
品牌引用和LLM机器人访问可以作为探索的三级指标，但需要进一步的产品开发才能轻松进行测试，而且LLM机器人访问可能与网站变更或用户行为没有任何相关性。
Google搜索控制台仅语义查询是一个潜在的探索领域，但测量需要人工投入

3、测试方法与供应商

接下来我们应该确定哪些类型的测试方法对AEO测试有用。市场上宣传的主要有两种方法：使用URL随机化分为测试/对照组的A/B测试和基于时间的测试。这些与市场上SEO A/B测试宣传的方法相同。

大多数宣传AEO/LLM可见度测试的供应商使用LLM引荐访问作为主要KPI。他们不使用品牌引用、提及等。市场仍在发展中，但我继续推荐使用基于URL随机化的统计A/B测试方法。

供应商1：seoClarity ClarityAutomate Split Tester

seoClarity有一个名为ClarityAutomate Split Tester的SEO测试工具，也可用于AEO测试。他们的方法是使用A/B拆分测试与LLM引荐细分，使用Adobe或Google Analytics。目前它查看一组URL的整体LLM流量。在不久的将来，他们将允许选择特定引擎的流量作为增强功能。例如，如果你正在进行的更改需要JavaScript，目前唯一能渲染JavaScript的LLM是Gemini，所以只测量Gemini LLM引荐访问会更精确。

供应商2：SearchPilot

SearchPilot的AEO测试遵循与seoClarity相同的方法，以LLM引荐访问作为他们推荐的指标，以A/B测试作为他们的方法。他们不推荐基于时间的测试。他们指出答案引擎包含自己的固定训练数据，所以网站无法像传统SEO那样影响它——在传统SEO中，网页更改可以在几小时或几天内被抓取、索引和排名。相反，答案引擎使用的检索增强生成是可以被影响的。在这些情况下，当LLM从网页获取新鲜内容时，网页更改可以影响LLM中的可见度。因此，AEO测试的重点应该是RAG优化。他们提到网站应该专注于类别和产品/服务级别页面，而不是上漏斗页面，因为品牌应该专注于影响RAG模型系统，该系统通常会从这些页面而不是上漏斗页面检索信息，而上漏斗页面往往非常永恒/静态。LLM只在需要用实时、新鲜的内容增强其智能基础时才使用RAG。如果网页是静态的，它们为什么要在答案中使用它？

供应商3：seotesting.com

SEOTesting.com的AEO方法是使用Google Analytics LLM引荐流量数据在你进行更改之前/之后进行注释。这是基于时间的测试。供应商提供在其SaaS仪表板中注释测试开始日期的能力，该仪表板从Google Analytics API拉取数据。一旦你向页面启动更改，你就将该日期的测试标记为"已启动"。然后你登录仪表板查看流量是否在发布后增长。你需要创建测试组和对照组的细分来随时间比较它们。

基于时间的测试，无论使用什么指标，由于许多原因都存在问题。当你比较前/后时期时，可能有几个因素在导致变化。可见度变化是由于季节性，还是由于LLM提及品牌或引用来源方式的变化？这些外部因素可能会影响分析。因为没有并发的对照组，没有办法控制这些外部因素，这可能会使结果混乱。但是，如果没有更好的测试方法可用，它可以作为备用选项。

他们还提供使用与其他供应商类似方法的SEO测试，但他们没有专门宣传用于AEO/LLM优化测试的产品，除了基于时间的测试。

供应商4：StatSig

Statsig提供A/B测试，包括SEO测试。他们还没有发布AEO/LLM测试的观点。他们提供与seoClarity和SearchPilot相同的SEO测试方法，因此他们的SaaS产品可用于部署AEO测试。需要连接到Adobe/Google Analytics的LLM引荐细分，然后切换到AEO测试。

4、非URL测试

那么非URL AEO测试呢，即不使用URL创建测试和对照组？如果测试的更改不在网站上，并且预计不会驱动流量或影响网站上的其他任何内容，那么可以进行非URL测试。你需要以其他方式随机化测试和对照组，要么通过时间、角色，要么通过其他指标。

原文链接: Upgrading your SEO testing framework for AEO

汇智网翻译整理，转载请标明出处