AI定价背后的秘密

几周前，我写了一篇文章解释涨价即将到来。

一些人不同意，但仅仅用了几周时间就证明我是对的，甚至比我预期的还要快。

然而，AI实验室正在以一种大多数人察觉不到的方式这样做，我认为这是一种相当不地道的手段。他们应该对此更加透明，但他们没有，所以我今天的目标就是揭露这个问题。

让我通过解释现代AI中最被误解的基本组件之一，来揭示Anthropic（Claude的创造者）用来向你收取更多费用的一个把戏。

1、没人知道的组件

很少有人知道，在你和你最喜欢的AI模型之间，存在一个被称为 分词器（tokenizer）的组件。

但要理解它是什么以及为什么它对你的总成本如此重要，我们需要先理解什么是令牌（token）。

1.1 什么是令牌？

你可能已经注意到，生成式AI中的一切都以"令牌"来衡量。

但这些东西到底是什么？

简而言之，它是AI模型语义含义的基本单位。它是ChatGPT等系统将数据"分解"为它所能理解的组成部分的方式。

在文本中，这意味着将其分解为单词。一个令牌具有其内在含义（单词本身就有含义），而这种含义会在每个令牌与序列中的其他令牌混合时被上下文化。

例如，"bank"根据上下文可以有多种含义，从金融机构到河流水道旁的坡地。

重要的是，令牌不一定是完整的单词；它们可以是几个字母，甚至只是单个字符。此外，不同的模型使用不同的分词方法。

例如，正如你在下面所看到的，GPT-4o将上面的序列分解为一串令牌，每个令牌被分配一个数字。

这个数字是一个行ID；它是嵌入表中的行号，将像"red"这样的词转换为一组定义"red"对模型意味着什么的数字。

这些数字意味着什么？ 单独来看，意义不大。但相对于其他令牌，它们意味着很多。

由于模型不与真实世界交互，它们构建的关于真实世界概念的理解主要是相对的，而不是"隐性的"，这意味着"红色"不是通过真实的"红色"样本来衡量的，而是相对于模型知道的其他概念来定义"它是什么"。

也就是说，每个概念被分配的这串数字是与其他概念的相对语义距离。

也就是说，"狗"和"猫"，都是哺乳动物、家养、四条腿、毛茸茸的动物，它们的数字会比"狗"和"鸽子"更相似，而这两者都是动物，它们之间的距离会比"狗"和"门"更近。

每个数字的意义可以更直观地理解为：它们代表了全局属性或维度，我们可以用这些维度来对概念进行分类。模型可能不完全知道沙威玛是什么，但它知道它比苹果馅卷更接近热狗。

这就是模型构建理解的方式；它们通过将某物与其他"已知的已知"进行比较来理解它是什么。

总的来说，生成式AI模型将数据视为令牌序列，这些令牌组合起来解释整体含义。

这可以应用于文本、图像（将其分解为图像块/像素组）、通过频谱图的音频等等。

这样做的主要原因是，AI模型，就像任何机器一样，只能"理解"数字。

因此，这个分词过程——将世界数据分解为模型能够理解的块——是为了将无法处理的东西转化为模型"理解"的语义含义单位序列。

尽管在改变这一点上已经进行了大量研究，但现实是，今天，这个分词器——将数据分解为令牌的组件——是独立于实际模型的。

但这为什么如此相关？

因为分词器不仅扮演技术角色，它还在很大程度上影响模型有多昂贵。

1.2 令牌的大小和数量很重要

当你向ChatGPT发送"What's today's news on the Iran war?"时，这些词被分解为令牌，然后才被馈送给模型。

模型同时看到所有令牌，并行处理它们，多次执行两个操作：

注意力。每个令牌可以与之前的令牌"对话"。"War"可以与"Iran"对话，以意识到我们在谈论伊朗战争，而不是拿破仑战争。这样做是因为，如前所述，含义是上下文化的。虽然"War"本身有含义，但它从上下文"Iran"中获取信息，以知道我们在谈论哪场战争。
MLP。基于可追溯到1950年代的第一个神经网络（是的，AI在某些领域并不完全是"新"的），这让模型能够根据自己的知识向每个令牌添加信息。例如，它可能会向"Iran"添加关于其与美国数十年纷争的信息，这些信息不在序列中，但对上下文化问题很有价值。

像Claude或Gemini这样的模型是这两个操作的串联，逐步构建足够的理解，使模型知道"接下来是什么"。

两者都是令牌级别的计算，这意味着它们所需的计算量与它们被馈送的令牌数量成正比。

这引入了大多数人和企业在选择"x"或"y"模型时没有意识到的一个潜在惊喜；令牌数量和令牌价格同样重要。

虽然每个人都熟悉令牌价格（模型的定价基于它们处理和生成的令牌），但这掩盖了一个问题：模型的行为和分词方式同样重要，甚至更重要。

看看我们一直在讨论的例子。如果我们使用Meta的Llama 3分词器而不是OpenAI的分词器，完全相同的文本序列被分词为10个令牌而不是8个。

这意味着，对于同一个模型，如果它被馈送10个令牌而不是8个，序列的处理成本大约高出20%。

更糟糕的是，因为分词为10个令牌的方案有更多压缩的令牌，生成完全相同输出响应的成本也会更高。

原因是我们之前解释过的：注意力和MLP操作都随令牌数量扩展。具体来说，注意力的"大O"复杂度为O(L²)，其中L是令牌数量。另一方面，MLP的复杂度为O(2*L)，约为O(L)。

用大白话说，两个操作所需的计算工作量都随着令牌数量的增加而增长。

这就是Anthropic玩手段的地方。

2、Anthropic的新分词器

问题的根源在于Anthropic的新模型Opus 4.7，仅仅因为它从Opus 4.6更换了分词器，令牌数量就增加了最多35%。

这很可能是因为Opus 4.7是Mythos（一个全新的模型）的蒸馏版本，但这是另一个故事了。

虽然Anthropic确实提到了这一点，但他们"忽略"了提及这可能意味着成本增加，原因不言而喻。

出于其他不言而喻的原因，人们已经开始对此进行测试，毫不意外地，该模型要贵得多，相对于Opus 4.7高出最多27%，尽管拥有相同的令牌定价（每百万输入和输出令牌5美元/25美元）。

Ramp进行了类似的分析并得出了相同的结论；Opus 4.7整体上就是更贵，尽管GPT-5.5的输出令牌价格更高，为30美元对25美元。

就这样，通过一个大多数客户不够专业无法理解的简单更改——因为除了像我这样的分析师，没有人应该被迫理解分词器才能使用AI模型——你的账单仅仅因为一个模型更换就增加了12-27%，而改进却主要是边际性的，根本不能证明涨价的合理性。

3、不地道的手段会毁掉信任

一切都是不可避免的。AI比我们被引导相信的要昂贵得多，补贴迟早要结束。

而那个"迟早"就是现在。

这些公司资产负债表上的窟窿是巨大的，高达数千亿，而且其生命周期比传统IT资产短得多。

收入呢？ 充其量，所有相关公司每年总共约1000亿美元（当然，不包括超大规模云服务商的收入，这些收入大部分是循环的，并没有真正的资金在交易）。

需要明确的是，收入增长令人印象深刻，但AI基础设施支出的增长仍然远远超过收入，至少在名义上是这样。

这些公司，特别是像Anthropic和OpenAI这样今年要上市的公司，无论如何都必须赚钱。

我理解这一点，但我看到的这些不地道的手段最终可能会反噬；这不是长期留住客户的方式，而且我看到这些公司几个月前还拥有的铁杆追随者正在出现明显的"氛围转变"。

我不能责怪任何人想赚更多的钱；我当然可以对你们选择如何赚钱发表意见。

我越是阅读这些东西，就越相信企业一旦变得足够成熟，就不会接受这一切，并将大规模开始向开源迁移（实际上，开源的门槛比人们想象的要低得多）。

你可以变相宣布近30%的涨价，而如今的公司可以说"谢谢，不需要"然后转向开源。

出于所有这些原因，我担心我们看到的大部分收入增长（主要来自企业）可能是短暂的，因为在我看来，私有模型只在编码或基于智能体的系统等迭代工作流中才有意义，在这些场景中，即使是智能方面的边际改进也很重要。

那是一个万亿美元的市场吗？ 让我们希望它是，否则所有这些公司花费数十亿，结果企业却说，"是的，谢谢，但我们选择开源解决方案，它因为你们而存在，但比你们便宜得多。"

因为认为前沿AI——在我看来将在未来多年持续涨价——可以是用来自动读取邮件的自动化工具，这就像我祖父常说的"用大炮打苍蝇"，完全是荒谬的。

原文链接: The Secret Behind AI Pricing Most People Ignore

汇智网翻译整理，转载请标明出处