AI定价背后的秘密

几周前,我写了一篇文章解释涨价即将到来。

一些人不同意,但仅仅用了几周时间就证明我是对的,甚至比我预期的还要快。

然而,AI实验室正在以一种大多数人察觉不到的方式这样做,我认为这是一种相当不地道的手段。他们应该对此更加透明,但他们没有,所以我今天的目标就是揭露这个问题

让我通过解释现代AI中最被误解的基本组件之一,来揭示Anthropic(Claude的创造者)用来向你收取更多费用的一个把戏

1、没人知道的组件

很少有人知道,在你和你最喜欢的AI模型之间,存在一个被称为 分词器(tokenizer)的组件。

但要理解它是什么以及为什么它对你的总成本如此重要,我们需要先理解什么是令牌(token)。

1.1 什么是令牌?

你可能已经注意到,生成式AI中的一切都以"令牌"来衡量。

但这些东西到底是什么?

简而言之,它是AI模型语义含义的基本单位。它是ChatGPT等系统将数据"分解"为它所能理解的组成部分的方式。

在文本中,这意味着将其分解为单词。一个令牌具有其内在含义(单词本身就有含义),而这种含义会在每个令牌与序列中的其他令牌混合时被上下文化。

例如,"bank"根据上下文可以有多种含义,从金融机构到河流水道旁的坡地。

重要的是,令牌不一定是完整的单词;它们可以是几个字母,甚至只是单个字符。此外,不同的模型使用不同的分词方法。

例如,正如你在下面所看到的,GPT-4o将上面的序列分解为一串令牌,每个令牌被分配一个数字。

这个数字是一个行ID;它是嵌入表中的行号,将像"red"这样的词转换为一组定义"red"对模型意味着什么的数字。

这些数字意味着什么? 单独来看,意义不大。但相对于其他令牌,它们意味着很多

由于模型不与真实世界交互,它们构建的关于真实世界概念的理解主要是相对的,而不是"隐性的",这意味着"红色"不是通过真实的"红色"样本来衡量的,而是相对于模型知道的其他概念来定义"它是什么"

也就是说,每个概念被分配的这串数字是与其他概念的相对语义距离。

也就是说,"狗"和"猫",都是哺乳动物、家养、四条腿、毛茸茸的动物,它们的数字会比"狗"和"鸽子"更相似,而这两者都是动物,它们之间的距离会比"狗"和"门"更近。

每个数字的意义可以更直观地理解为:它们代表了全局属性或维度,我们可以用这些维度来对概念进行分类。模型可能不完全知道沙威玛是什么,但它知道它比苹果馅卷更接近热狗。

这就是模型构建理解的方式;它们通过将某物与其他"已知的已知"进行比较来理解它是什么。

总的来说,生成式AI模型将数据视为令牌序列,这些令牌组合起来解释整体含义。

这可以应用于文本、图像(将其分解为图像块/像素组)、通过频谱图的音频等等。

这样做的主要原因是,AI模型,就像任何机器一样,只能"理解"数字

因此,这个分词过程——将世界数据分解为模型能够理解的块——是为了将无法处理的东西转化为模型"理解"的语义含义单位序列。

尽管在改变这一点上已经进行了大量研究,但现实是,今天,这个分词器——将数据分解为令牌的组件——是独立于实际模型的。

但这为什么如此相关?

因为分词器不仅扮演技术角色,它还在很大程度上影响模型有多昂贵

1.2 令牌的大小和数量很重要

当你向ChatGPT发送"What's today's news on the Iran war?"时,这些词被分解为令牌,然后才被馈送给模型。

模型同时看到所有令牌,并行处理它们,多次执行两个操作:

  1. 注意力。每个令牌可以与之前的令牌"对话"。"War"可以与"Iran"对话,以意识到我们在谈论伊朗战争,而不是拿破仑战争。这样做是因为,如前所述,含义是上下文化的。虽然"War"本身有含义,但它从上下文"Iran"中获取信息,以知道我们在谈论哪场战争。
  2. MLP。基于可追溯到1950年代的第一个神经网络(是的,AI在某些领域并不完全是"新"的),这让模型能够根据自己的知识向每个令牌添加信息。例如,它可能会向"Iran"添加关于其与美国数十年纷争的信息,这些信息不在序列中,但对上下文化问题很有价值。

像Claude或Gemini这样的模型是这两个操作的串联,逐步构建足够的理解,使模型知道"接下来是什么"。

两者都是令牌级别的计算,这意味着它们所需的计算量与它们被馈送的令牌数量成正比。

这引入了大多数人和企业在选择"x"或"y"模型时没有意识到的一个潜在惊喜;令牌数量和令牌价格同样重要。

虽然每个人都熟悉令牌价格(模型的定价基于它们处理和生成的令牌),但这掩盖了一个问题:模型的行为和分词方式同样重要,甚至更重要

看看我们一直在讨论的例子。如果我们使用Meta的Llama 3分词器而不是OpenAI的分词器,完全相同的文本序列被分词为10个令牌而不是8个

这意味着,对于同一个模型,如果它被馈送10个令牌而不是8个,序列的处理成本大约高出20%

更糟糕的是,因为分词为10个令牌的方案有更多压缩的令牌,生成完全相同输出响应的成本也会更高。

原因是我们之前解释过的:注意力和MLP操作都随令牌数量扩展。具体来说,注意力的"大O"复杂度为O(L²),其中L是令牌数量。另一方面,MLP的复杂度为O(2*L),约为O(L)。
用大白话说,两个操作所需的计算工作量都随着令牌数量的增加而增长。

这就是Anthropic玩手段的地方。

2、Anthropic的新分词器

问题的根源在于Anthropic的新模型Opus 4.7,仅仅因为它从Opus 4.6更换了分词器,令牌数量就增加了最多35%

这很可能是因为Opus 4.7是Mythos(一个全新的模型)的蒸馏版本,但这是另一个故事了。

虽然Anthropic确实提到了这一点,但他们"忽略"了提及这可能意味着成本增加,原因不言而喻。

出于其他不言而喻的原因,人们已经开始对此进行测试,毫不意外地,该模型要贵得多,相对于Opus 4.7高出最多27%,尽管拥有相同的令牌定价(每百万输入和输出令牌5美元/25美元)

Ramp进行了类似的分析并得出了相同的结论;Opus 4.7整体上就是更贵,尽管GPT-5.5的输出令牌价格更高,为30美元对25美元

就这样,通过一个大多数客户不够专业无法理解的简单更改——因为除了像我这样的分析师,没有人应该被迫理解分词器才能使用AI模型——你的账单仅仅因为一个模型更换就增加了12-27%,而改进却主要是边际性的,根本不能证明涨价的合理性。

3、不地道的手段会毁掉信任

一切都是不可避免的。AI比我们被引导相信的要昂贵得多,补贴迟早要结束。

而那个"迟早"就是现在。

这些公司资产负债表上的窟窿是巨大的,高达数千亿,而且其生命周期比传统IT资产短得多。

收入呢? 充其量,所有相关公司每年总共约1000亿美元(当然,不包括超大规模云服务商的收入,这些收入大部分是循环的,并没有真正的资金在交易)。

需要明确的是,收入增长令人印象深刻,但AI基础设施支出的增长仍然远远超过收入,至少在名义上是这样。

这些公司,特别是像Anthropic和OpenAI这样今年要上市的公司,无论如何都必须赚钱。

我理解这一点,但我看到的这些不地道的手段最终可能会反噬;这不是长期留住客户的方式,而且我看到这些公司几个月前还拥有的铁杆追随者正在出现明显的"氛围转变"。

我不能责怪任何人想赚更多的钱;我当然可以对你们选择如何赚钱发表意见。

我越是阅读这些东西,就越相信企业一旦变得足够成熟,就不会接受这一切,并将大规模开始向开源迁移(实际上,开源的门槛比人们想象的要低得多)。

你可以变相宣布近30%的涨价,而如今的公司可以说"谢谢,不需要"然后转向开源。

出于所有这些原因,我担心我们看到的大部分收入增长(主要来自企业)可能是短暂的,因为在我看来,私有模型只在编码或基于智能体的系统等迭代工作流中才有意义,在这些场景中,即使是智能方面的边际改进也很重要。

那是一个万亿美元的市场吗? 让我们希望它是,否则所有这些公司花费数十亿,结果企业却说,"是的,谢谢,但我们选择开源解决方案,它因为你们而存在,但比你们便宜得多。"

因为认为前沿AI——在我看来将在未来多年持续涨价——可以是用来自动读取邮件的自动化工具,这就像我祖父常说的"用大炮打苍蝇",完全是荒谬的。


原文链接: The Secret Behind AI Pricing Most People Ignore

汇智网翻译整理,转载请标明出处