用Exo搭建本地800亿参数AI集群

在上一篇文章 《我用16GB Mac Mini打造AI powerhouse——LM Studio Link如何改变一切》中,我探索了通过在强大的机器上使用LM Studio Link来在较小设备上运行AI模型的方法。

如果我想反其道而行之——将多台机器的CPU、GPU和RAM资源整合起来,运行单台机器无法处理的模型呢?

如果你手头有一堆较小的设备,想要将它们的能力整合起来以发挥更大作用呢?

来认识Exo。这正是这个问题的答案。

1、什么是Exo?

Exo是由Exo Labs维护的一个开源项目。用一句话概括:它将你的所有设备连接成一个个人AI集群,让你可以运行那些永远无法装入任何单台机器的前沿模型。

核心能力一览:

  • 自动设备发现——运行Exo的设备会自动在网络上找到彼此,无需手动配置。
  • 拓扑感知自动并行——Exo会根据每台设备可用的RAM、CPU/GPU资源以及节点间的网络延迟,自动找出最优的模型分割方式。
  • 张量并行——模型分片可在2台设备上实现高达1.8倍加速,在4台设备上实现3.2倍加速。
  • Thunderbolt 5上的RDMA——在支持的硬件(M4 Pro/Max)上,这可将设备间延迟降低高达99%。
  • MLX后端——使用苹果的MLX框架在Apple Silicon上进行GPU加速推理。
  • OpenAI兼容API——暴露http://localhost:52415/v1接口,任何支持OpenAI的工具都可以直接与你的集群通信。
  • 支持54个以上模型——从小的Llama模型到671B参数的DeepSeek变体。
  • 适用于Mac、Linux,甚至树莓派。

我的配置:Mac Mini M4 + MacBook Pro M4 Max

在这个实验中,我组合了两台机器:

  • Mac Mini M4——16GB统一内存,峰值使用55.1GB/64GB(86%)
  • MacBook Pro M4 Max——64GB统一内存,次要分区使用9.8GB/16GB(61%)

合起来,这个集群有足够的余量来加载Qwen3-Next-80B-A3B-Thinking-4bit——一个44GB的量化模型,单台机器都无法轻松处理。该模型以稳定的每秒70到80个token(TPS)运行,首次token时间(TTFT)根据查询复杂度约为4到11秒。温度方面:Mac Mini在负载下峰值达到41到86摄氏度,MacBook Pro保持在48到53摄氏度之间。

2、安装设置

对于macOS,Exo以原生应用形式提供(DMG版本需要macOS Tahoe 26.2或更高版本):

  • 从发布页面下载EXO-latest.dmg。
  • 复制到应用程序文件夹并启动。
  • 在同一网络的每台其他机器上重复此操作。
  • 完成——节点会自动发现彼此并显示在拓扑视图中。

就这么简单。它真的能用。

Linux和Windows设置

Linux用户需要从源代码运行。首先安装依赖:

  • uv(Python依赖管理器):
curl -LsSf https://astral.sh/uv/install.sh | sh
  • Node.js 18+ 和 npm
  • Rust(nightly):
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh && rustup toolchain install nightly

然后克隆并运行:

git clone https://github.com/exo-explore/exo
cd exo/dashboard && npm install && npm run build && cd ..
uv run exo

一个重要注意事项:在Linux上,Exo目前仅支持CPU。GPU支持正在积极开发中——如果你打算用NVIDIA或AMD GPU来实现这个功能,值得关注。

3、仪表板:开箱即用的集群可见性

运行后,内置的Web仪表板在http://localhost:52415提供集群的实时拓扑视图。每个节点显示当前的CPU使用率、温度、功耗和内存利用率。你可以看到哪台设备正在处理模型的哪一部分——这就是拓扑感知自动并行引擎的实际运行。

在下载之前,它会显示组合后的RAM以及可以在你的AI集群中运行的模型。

使用80GB(64GB + 16GB)RAM可以运行的模型快照。

下载并运行第一个提示后,模型会根据每台机器的RAM被分层到两台机器上。

Exo就绪聊天的快照。

在推理过程中,你可以看到Mac Mini的CPU飙升到97%,温度达到86摄氏度,功耗82瓦,而MacBook Pro则以8-13%的负载平稳运行——Exo足够智能,会根据可用资源分配工作负载。仪表板中的THINK模式支持思维链推理,你可以在生成后展开或折叠它。

Exo运行时的快照!

4、API:开箱即用的OpenAI替代品

Exo在http://localhost:52415/v1暴露一个完全兼容OpenAI的REST API。这意味着任何支持OpenAI SDK的工具、代理框架或应用都可以直接指向你的本地集群——无需修改代码。

使用curl的快速示例:

curl -N -X POST http://localhost:52415/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{
"model": "mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit",
"messages": [
{"role": "user", "content": "What is sky blue ?"}
],
"stream": false
}'

我们将收到如下所示的JSON输出。

{"id":"887aab7d-c2e4-455d-bb7e-44d82b998bb1","object":"chat.completion","created":1773493013,"model":"mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit","choices":[{"index":0,"message":{"role":"assistant","content":"\n\n这是一个好问题!根据上下文,\"sky blue\"可以有两层含义:\n\n### 1. **\"Sky Blue\"作为颜色名称** \n - 这指的是一种特定的**淡青色或浅蓝色**——就像晴朗白天的天空颜色。 \n - 在数字设计中,它通常定义为: \n - **十六进制代码:#87CEEB** \n - **RGB值:(135, 206, 235)** \n - 它是艺术、时尚和设计中常用的颜色名称,用来描述让人联想到万里无云天空的柔和、平静的蓝色。\n\n---\n\n### 2. **为什么真实的天空是蓝色的(科学解释!)** \n这部分更有趣——也是这种颜色被*命名为*\"天蓝色\"的原因!天空之所以呈现蓝色,是由于一种称为**瑞利散射**的现象: \n\n- **阳光=白光**:太阳发出所有颜色的光(红、橙、黄、绿、蓝、紫),它们组合成\"白光\"。 \n- **地球大气层**:当阳光进入我们的大气层时,它会与气体分子(氮气、氧气)和微小颗粒碰撞。 \n- **按尺寸散射**:较短的波长(如**蓝色和紫色**)比长波长(红色、黄色)更容易从这些分子散射。 \n - 蓝光的波长约为450-495纳米——足够小,可以向各个方向散射。 \n - 紫光散射得更多,但我们的眼睛对紫光不太敏感,而且太阳本身发出的紫光也较少。因此**蓝色主导**了我们看到的效果。 \n- **结果**:当你抬头看天空(远离太阳)时,你看到来自四面八方的散射蓝光→天空呈现蓝色!\n\n#### 🌅 为什么日落是红色/橙色: \n在日出/日落时,阳光穿过*更多*大气层才能到达你的眼睛。大部分蓝光..."

这就是让Exo对开发者强大的原因。你可以将它接入代理AI应用、LangChain、LlamaIndex、你自己的代理流水线,或任何OpenAI兼容的客户端。你的本地集群成为一个私有的推理端点。

5、Thunderbolt 5上的RDMA:下一个层次

如果你有配备Thunderbolt 5的M4 Pro或M4 Max硬件,Exo支持RDMA(远程直接内存访问)——这是macOS 26.2的新功能。据报道,这可将节点间延迟降低高达99%,实现通常与数据中心互连相关的性能。

我无法在当前设置中测试这一点(RDMA未启用的警告在我的截图中可见——我的机器使用WiFi而非Thunderbolt 5),但Jeff Geerling的4×M3 Ultra Mac Studio集群的基准测试显示Qwen3-235B以生产级速度运行。这就是这个工具可以达到的上限。

6、真实性能数据

以下是我在测试查询中观察到的结果:

  • "天空为什么是蓝色的?"——TTFT:10,739毫秒,TPS:75.2个token/秒(每token13.3毫秒)
  • "用Python写一个贪吃蛇游戏"——TTFT:4,049毫秒,TPS:69.1个token/秒
  • 一般推理:整个会话保持68-75 TPS

对于一个完全在本地硬件上运行、零云成本的800亿参数思维模型来说,这些数据确实令人印象深刻。THINK模式(思维链推理)如预期增加了TTFT,但启用后模型质量明显更强。

7、Exo vs. LM Studio Link:何时使用哪个

这两个工具解决相邻但不同的问题:

  • LM Studio Link——当你有一台强大的机器,想从网络上的较弱设备访问它时使用。一个主机,多个客户端。
  • Exo——当你想将多台机器组合成单个虚拟GPU集群时使用。多个主机,一个模型。

如果你的目标是运行比任何单机支持的更大的模型——Exo是正确的工具。如果你的目标是方便和远程访问——LM Studio Link仍然很优秀。

8、结束语

Exo是我遇到的最实用的开源AI工具之一。入门门槛极低——尤其是在Mac上——而上限却极高。两年前,在连接到同一WiFi网络的两台笔记本电脑上分布式运行一个具备思维能力的800亿参数模型,听起来就像科幻小说。

如果你正在构建代理AI系统、运行本地实验,或者只是好奇你的硬件在协同工作时能做什么,试试Exo吧。在Mac上设置只需要两分钟。其影响将让你忙碌更长时间。


原文链接: I Turned Two Macs Into an 80B AI Cluster for Free — Exo Is the Open-Source Tool You've Been Waiting…

汇智网翻译整理,转载请标明出处