Bonsai 8B:极致量化的小模型
LLM研究一直被两个相反的方向拉扯。一方竞相追求规模——更多参数、更强能力。另一方竞相追求效率——更小的模型、更低的内存占用、在受限硬件上更快的推理。多年来,这两个目标似乎根本对立。你只能拥有一个强大的模型,或者一个可部署的模型。很少能兼得。
模型量化一直是效率阵营的主要工具。想法很简单:不是将模型中的每个权重存储为32或16位浮点数,而是用更少的位来表示。8位,然后4位,然后2位。每下降一步都会节省内存并加速推理,但通常以模型质量为代价。这种权衡感觉像是一个硬性物理定律。从经验来看,4位量化似乎总是硬性极限——再压缩下去,模型就没用了。
PrismML认为他们找到了绕过这个硬性极限的方法。2026年3月31日,他们发布了一份白皮书,介绍了1位Bonsai 8B——一个80亿参数的语言模型,压缩到每个权重仅1.125位,完全装入1.15 GB。作为对比,相同模型在标准FP16精度下占用16.38 GB。这是14.2倍的压缩,基准分数仍与同级别的全精度模型具有竞争力。
1、底层:1位Bonsai 8B的架构
关于1位Bonsai 8B,首先值得澄清的一点是,PrismML并没有从头构建新的模型架构。该架构完全基于阿里巴巴Qwen团队发布的Qwen3-8B。
使Bonsai 8B与众不同的是,在此架构的权重到达设备之前对它们进行的处理。
在标准部署中,这种规模的模型将以FP16权重分发——每个参数16位,总计16.38 GB。PrismML的贡献是一种压缩方法,将网络中的每个主要权重矩阵减少到每个权重1位。这不仅应用于注意力投影,而是端到端:嵌入、注意力层、MLP层和语言模型头都以1位表示。
结果是一个保留了Qwen3-8B完整架构表达能力的模型——36层、32个注意力头、65K上下文窗口——同时仅占1.15 GB,14.2倍压缩。
2、"1位"实际上意味着什么?
要理解1位Bonsai 8B的非凡之处,从神经网络权重实际是什么开始会有帮助。
在标准模型中,每个权重是一个浮点数——比如0.823、-0.341或0.092。这些数字编码了模型在训练期间学到的所有内容。当你通过模型运行提示时,每个token经过数十次矩阵乘法,每次将数千个这些权重结合起来产生输出。这些权重的精度——用于表示每个权重的位数——直接决定了模型的质量和运行成本。
1位量化将其推向绝对逻辑极端。不是65,536个可能值,每个权重只有两个:正或负。单个位。1或0。
明显的问题是,如果每个权重坍缩到只有1或0,你就会丢失所有幅度信息。一个原始为0.003的权重和一个为2.7的权重变成相同的东西。直观上,这似乎应该摧毁模型。而这正是1位模型大多停留在理论上的核心原因。
3、Bonsai如何解决:组尺度s_g
Bonsai引入了一个共享尺度因子,称为s_g——每128个连续权重一组一个。想法很简单。不是在推理期间每个权重只是0或1,而是128个权重组中的每个权重要么是 +s_g,要么是-s_g,其中s_g是整个组共享的单个FP16数字。
在推理时,重建一个权重是两步操作:
w_i = s_g × (2b_i − 1)
其中 b_i ∈ {0, 1}
如果存储的位b_i是1,权重变为 +s_g。如果是0,权重变为-s_g。尺度s_g均匀应用于组中的每个权重。
在Bonsai 8b中,二进制权重被重建为s_g或-s_g
4、1位模型到底有多好?
当听到14倍压缩时,自然的怀疑很简单:你到底放弃了什么?
PrismML在六个基准类别上评估了1位Bonsai 8B——知识、推理、数学、编码、指令遵循和工具调用——将其与11个全精度8B模型在相同基础设施和相同生成设置下进行比较。Bonsai 8B平均得分70.5,与Ministral3 8B和Olmo 3 7B相差不到半分,而这两个模型在内存上都超过14倍。 1位压缩的真实成本体现在顶部:FP16格式的Qwen3 8B得分79.3,因此与基础模型相比确实存在8.8分的差距。如果你需要峰值能力且内存不受限制,FP16仍然更好。
但这种比较错过了重点。对于部署来说,相关的问题不是"1位与其自己的FP16版本相比如何?"而是"我能在该设备上实际运行的最佳模型是什么?"在iPhone上,FP16格式的8B模型根本无法装入。1位Bonsai 8B可以——而且在iPhone 17 Pro Max上运行速度约为每秒44个token。
这个视频是实际效果。
这是一个完整的8B级模型解决数学问题,完全在设备上运行,无需互联网连接。
5、Bonsai 8B内部的黑盒
结果令人印象深刻。但仔细阅读白皮书,PrismML展示的内容与解释的内容之间存在明显差距。
最基本的开放问题是1位权重实际上是如何产生的。量化训练模型有两种广泛的方法:训练后量化(PTQ),压缩已经训练好的模型,以及量化感知训练(QAT),模型在训练期间本身学会对低精度具有鲁棒性。这种区分在极端压缩水平下非常重要。白皮书没有说明PrismML使用了哪一种。
同样未披露的是组尺度s_g是如何得出的——这个单一值决定了128个权重组中每个重建权重的幅度。做好这一点很可能是Bonsai在1位下仍能保持竞争力的核心原因。论文描述了s_g的存在。但关于如何计算它只字未提。
这引发了一个白皮书未解决的实际问题:你能将相同的量化应用于其他模型吗?几乎可以肯定不会。GGUF Q1_0_g128格式是开放的,但将一个好的1位模型从全精度模型产生的过程似乎是被保护的部分。你不能简单地像Gemma 4或GPT-OSS这样的模型,通过标准量化工具运行,并期望获得Bonsai级别的结果。
6、我们从这里走向何方?
1位Bonsai 8B是一个真正有趣的结果。不是因为它是最智能的可用模型——它不是——而是因为它挑战了一个悄然塑造AI部署的假设:有用的智能需要大量内存。一个1.15 GB的竞争性8B级模型,在手机上以每秒44个token的速度运行,改变了边缘设备上可能实现的事情。私有的设备上推理不再是妥协,而开始成为可行的首选。
也就是说,压缩方法是专有的,我们不知道这种方法是否适用于其他架构。它确实令人信服地表明,1位领域不再是纯粹理论的。有时,单个位,如果尺度正确,就足够了。
原文链接: Tiny Models are Getting Really Good
汇智网翻译整理,转载请标明出处
原文链接: Tiny Models are Getting Really Good
汇智网翻译整理,转载请标明出处