用Exo搭建本地800亿参数AI集群

在上一篇文章 《我用16GB Mac Mini打造AI powerhouse——LM Studio Link如何改变一切》中，我探索了通过在强大的机器上使用LM Studio Link来在较小设备上运行AI模型的方法。

如果我想反其道而行之——将多台机器的CPU、GPU和RAM资源整合起来，运行单台机器无法处理的模型呢？

如果你手头有一堆较小的设备，想要将它们的能力整合起来以发挥更大作用呢？

来认识Exo。这正是这个问题的答案。

1、什么是Exo？

Exo是由Exo Labs维护的一个开源项目。用一句话概括：它将你的所有设备连接成一个个人AI集群，让你可以运行那些永远无法装入任何单台机器的前沿模型。

核心能力一览：

自动设备发现——运行Exo的设备会自动在网络上找到彼此，无需手动配置。
拓扑感知自动并行——Exo会根据每台设备可用的RAM、CPU/GPU资源以及节点间的网络延迟，自动找出最优的模型分割方式。
张量并行——模型分片可在2台设备上实现高达1.8倍加速，在4台设备上实现3.2倍加速。
Thunderbolt 5上的RDMA——在支持的硬件（M4 Pro/Max）上，这可将设备间延迟降低高达99%。
MLX后端——使用苹果的MLX框架在Apple Silicon上进行GPU加速推理。
OpenAI兼容API——暴露http://localhost:52415/v1接口，任何支持OpenAI的工具都可以直接与你的集群通信。
支持54个以上模型——从小的Llama模型到671B参数的DeepSeek变体。
适用于Mac、Linux，甚至树莓派。

我的配置：Mac Mini M4 + MacBook Pro M4 Max

在这个实验中，我组合了两台机器：

Mac Mini M4——16GB统一内存，峰值使用55.1GB/64GB（86%）
MacBook Pro M4 Max——64GB统一内存，次要分区使用9.8GB/16GB（61%）

合起来，这个集群有足够的余量来加载Qwen3-Next-80B-A3B-Thinking-4bit——一个44GB的量化模型，单台机器都无法轻松处理。该模型以稳定的每秒70到80个token（TPS）运行，首次token时间（TTFT）根据查询复杂度约为4到11秒。温度方面：Mac Mini在负载下峰值达到41到86摄氏度，MacBook Pro保持在48到53摄氏度之间。

2、安装设置

对于macOS，Exo以原生应用形式提供（DMG版本需要macOS Tahoe 26.2或更高版本）：

从发布页面下载EXO-latest.dmg。
复制到应用程序文件夹并启动。
在同一网络的每台其他机器上重复此操作。
完成——节点会自动发现彼此并显示在拓扑视图中。

就这么简单。它真的能用。

Linux和Windows设置

Linux用户需要从源代码运行。首先安装依赖：

uv（Python依赖管理器）：

curl -LsSf https://astral.sh/uv/install.sh | sh

Node.js 18+ 和 npm
Rust（nightly）：

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh && rustup toolchain install nightly

然后克隆并运行：

git clone https://github.com/exo-explore/exo
cd exo/dashboard && npm install && npm run build && cd ..
uv run exo

一个重要注意事项：在Linux上，Exo目前仅支持CPU。GPU支持正在积极开发中——如果你打算用NVIDIA或AMD GPU来实现这个功能，值得关注。

3、仪表板：开箱即用的集群可见性

运行后，内置的Web仪表板在http://localhost:52415提供集群的实时拓扑视图。每个节点显示当前的CPU使用率、温度、功耗和内存利用率。你可以看到哪台设备正在处理模型的哪一部分——这就是拓扑感知自动并行引擎的实际运行。

在下载之前，它会显示组合后的RAM以及可以在你的AI集群中运行的模型。

使用80GB（64GB + 16GB）RAM可以运行的模型快照。

下载并运行第一个提示后，模型会根据每台机器的RAM被分层到两台机器上。

Exo就绪聊天的快照。

在推理过程中，你可以看到Mac Mini的CPU飙升到97%，温度达到86摄氏度，功耗82瓦，而MacBook Pro则以8-13%的负载平稳运行——Exo足够智能，会根据可用资源分配工作负载。仪表板中的THINK模式支持思维链推理，你可以在生成后展开或折叠它。

Exo运行时的快照！

4、API：开箱即用的OpenAI替代品

Exo在http://localhost:52415/v1暴露一个完全兼容OpenAI的REST API。这意味着任何支持OpenAI SDK的工具、代理框架或应用都可以直接指向你的本地集群——无需修改代码。

使用curl的快速示例：

curl -N -X POST http://localhost:52415/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{
"model": "mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit",
"messages": [
{"role": "user", "content": "What is sky blue ?"}
],
"stream": false
}'

我们将收到如下所示的JSON输出。

{"id":"887aab7d-c2e4-455d-bb7e-44d82b998bb1","object":"chat.completion","created":1773493013,"model":"mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit","choices":[{"index":0,"message":{"role":"assistant","content":"\n\n这是一个好问题！根据上下文，\"sky blue\"可以有两层含义：\n\n### 1. **\"Sky Blue\"作为颜色名称** \n - 这指的是一种特定的**淡青色或浅蓝色**——就像晴朗白天的天空颜色。 \n - 在数字设计中，它通常定义为： \n - **十六进制代码：#87CEEB** \n - **RGB值：(135, 206, 235)** \n - 它是艺术、时尚和设计中常用的颜色名称，用来描述让人联想到万里无云天空的柔和、平静的蓝色。\n\n---\n\n### 2. **为什么真实的天空是蓝色的（科学解释！）** \n这部分更有趣——也是这种颜色被*命名为*\"天蓝色\"的原因！天空之所以呈现蓝色，是由于一种称为**瑞利散射**的现象： \n\n- **阳光=白光**：太阳发出所有颜色的光（红、橙、黄、绿、蓝、紫），它们组合成\"白光\"。 \n- **地球大气层**：当阳光进入我们的大气层时，它会与气体分子（氮气、氧气）和微小颗粒碰撞。 \n- **按尺寸散射**：较短的波长（如**蓝色和紫色**）比长波长（红色、黄色）更容易从这些分子散射。 \n - 蓝光的波长约为450-495纳米——足够小，可以向各个方向散射。 \n - 紫光散射得更多，但我们的眼睛对紫光不太敏感，而且太阳本身发出的紫光也较少。因此**蓝色主导**了我们看到的效果。 \n- **结果**：当你抬头看天空（远离太阳）时，你看到来自四面八方的散射蓝光→天空呈现蓝色！\n\n#### 🌅 为什么日落是红色/橙色： \n在日出/日落时，阳光穿过*更多*大气层才能到达你的眼睛。大部分蓝光..."

这就是让Exo对开发者强大的原因。你可以将它接入代理AI应用、LangChain、LlamaIndex、你自己的代理流水线，或任何OpenAI兼容的客户端。你的本地集群成为一个私有的推理端点。

5、Thunderbolt 5上的RDMA：下一个层次

如果你有配备Thunderbolt 5的M4 Pro或M4 Max硬件，Exo支持RDMA（远程直接内存访问）——这是macOS 26.2的新功能。据报道，这可将节点间延迟降低高达99%，实现通常与数据中心互连相关的性能。

我无法在当前设置中测试这一点（RDMA未启用的警告在我的截图中可见——我的机器使用WiFi而非Thunderbolt 5），但Jeff Geerling的4×M3 Ultra Mac Studio集群的基准测试显示Qwen3-235B以生产级速度运行。这就是这个工具可以达到的上限。

6、真实性能数据

以下是我在测试查询中观察到的结果：

"天空为什么是蓝色的？"——TTFT：10,739毫秒，TPS：75.2个token/秒（每token13.3毫秒）
"用Python写一个贪吃蛇游戏"——TTFT：4,049毫秒，TPS：69.1个token/秒
一般推理：整个会话保持68-75 TPS

对于一个完全在本地硬件上运行、零云成本的800亿参数思维模型来说，这些数据确实令人印象深刻。THINK模式（思维链推理）如预期增加了TTFT，但启用后模型质量明显更强。

7、Exo vs. LM Studio Link：何时使用哪个

这两个工具解决相邻但不同的问题：

LM Studio Link——当你有一台强大的机器，想从网络上的较弱设备访问它时使用。一个主机，多个客户端。
Exo——当你想将多台机器组合成单个虚拟GPU集群时使用。多个主机，一个模型。

如果你的目标是运行比任何单机支持的更大的模型——Exo是正确的工具。如果你的目标是方便和远程访问——LM Studio Link仍然很优秀。

8、结束语

Exo是我遇到的最实用的开源AI工具之一。入门门槛极低——尤其是在Mac上——而上限却极高。两年前，在连接到同一WiFi网络的两台笔记本电脑上分布式运行一个具备思维能力的800亿参数模型，听起来就像科幻小说。

如果你正在构建代理AI系统、运行本地实验，或者只是好奇你的硬件在协同工作时能做什么，试试Exo吧。在Mac上设置只需要两分钟。其影响将让你忙碌更长时间。

原文链接: I Turned Two Macs Into an 80B AI Cluster for Free — Exo Is the Open-Source Tool You've Been Waiting…

汇智网翻译整理，转载请标明出处