用LM Studio Link搭建私有AI集群
我已经运行本地 LLM 有一段时间了。如果你像我一样,你知道这种感觉 —— 你下载一个新模型,点击"加载",然后看着你的机器因为内存不足而卡住。这很令人沮丧,特别是当你知道在其他地方有更强大的机器时。
这正是我面临的情况。然后我获得了 LM Studio Link 的早期访问权限。
让我告诉你 —— 这东西改变了游戏规则。
1、我的设置:两台 Mac,一个问题
我在家里有两台 Apple Silicon 机器:
- Mac Mini M4 —— 16GB RAM。我的日常主力机。紧凑、安静、始终开启。
- MacBook Pro M4 Max —— 64GB RAM。猛兽。但并不总是在我的办公桌上。
Mini 完美地处理日常任务。但是当涉及到运行严肃的模型,比如 OpenAI 的 GPT-OSS 20B、Qwen 3.5 35B 或 Llama 3 70B 时?没机会。这些模型需要的内存远超 16GB 能提供的。
与此同时,我的 M4 Max 笔记本电脑可以舒适地运行所有这些模型。问题很明显 —— 计算能力有一半时间在错误的机器上。
我一直在考虑使用 Ollama 和 SSH 隧道设置一些东西,甚至可能是一个反向代理。然后 LM Studio 推出了 Link,突然间,所有这些黑客手段都不再必要了。
2、LM Studio Link 到底是什么?
把它想象成你自己的私有 AI 网络。
LM Studio Link 允许你将多台运行 LM Studio(或其无头对应物 llmster)的机器连接到一个安全的网格网络中。一旦连接,你可以在任何远程设备上加载模型,并从任何其他设备使用它们 —— 就好像模型在本地运行一样。
重要的关键细节:
- 端到端加密 —— 建立在基于 WireGuard 协议的 Tailscale 网格 VPN 之上
- 不暴露端口 —— 你的机器永远不会接触公共互联网
- 零配置 —— 在防火墙、NAT 和企业网络后工作,无需手动端口转发
- 基于身份的访问 —— 没有需要管理或轮换的 API 密钥
- 完全在用户空间运行 —— 不修改任何全局系统设置
这是一种设置,使用 SSH 配置文件、防火墙规则和 Tailscale 设置本来需要几天的时间。LM Studio 将其全部包装成几次点击。
3、设置它:惊人的轻松
对我来说,实际的设置是这样的:
在 M4 Max(主机)上,我打开了 LM Studio,登录到我的账户,并启用了 Link。这台机器在几秒钟内就出现在我的网络中。我点击底部的 Link 按钮,点击 "Create your link" 按钮,连接到我的 Google Account,选择"GUI is present on the machine",并按照另一台机器上的说明操作,在我的情况下,是一台 Mac Mini!
在 Mac Mini(客户端)上:我用同一个账户登录。在"网络设备"下,我的 M4 Max 作为连接设备出现。我可以看到它上所有可用的模型 —— GPT-OSS 20B、Glm 4.7 Flash、Nemotron 3 Nano、Qwen3 Coder 30B、Gemma 3 27B Instruct,以及十几个更多。
我点击了 GPT-OSS 20B,它加载了。在我的 16GB Mac Mini 上。通过加密隧道。在房间另一边的 M4 Max 上运行推理。
第一个响应回来了,我在那里坐了一会儿。它很快。 —— 每秒 87 个 token。聊天感觉与运行本地模型没有什么不同。
4、"顿悟"时刻
我问模型一个问题,关于"为什么天空是蓝色的"。回来的是详细的、结构良好的回答,有一个你可以在家里尝试的实际实验。响应使用了 1,139 个 token,大约在半秒内完成。
就在那时,我意识到了。我正在一台只有 16GB RAM 的机器上运行一个 200 亿参数的模型。聊天存储在本地我的 Mini 上。推理发生在我的 M4 Max 上。整个事情是端到端加密的。
没有云提供商参与。没有 token 计入计费仪表。没有数据离开我的本地网络。
5、为什么这比你想象的更重要
如果你是开发人员、研究人员,或者任何使用本地 AI 的人,以下是 Link 值得你注意的原因:
你停止购买重复的硬件。 而不是最大化每台机器,你投资于一台强大的机器并在你的设备之间共享其计算。我的 Mac Mini 不再需要 64GB RAM。
你现有的工具只是工作。 任何指向 localhost:1234 的应用程序 —— 无论是 Claude Code、OpenCode、Codex,还是你自己的自定义脚本 —— 都可以使用远程模型而无需任何代码更改。LM Studio 透明地处理路由。
隐私保持完整。 这不是云中继。你的提示和模型权重通过加密的对等连接在你的设备之间直接传输。Tailscale 和 LM Studio 的服务器都无法看到你的数据。只有用于连接设置的设备元数据接触他们的后端。
没有 API 密钥管理麻烦。 如果你曾经意外提交了一个带有 API 密钥的 .env 文件,你就知道那种痛苦。Link 使用绑定到你的 LM Studio 账户的基于身份的身份验证。没有密钥会泄漏。
6、实际影响
我一直在思考这如何改变工作流程,特别是对于在多个位置或机器工作的人:
家庭办公室设置: 在一个房间保留 GPU 设备或高内存 Mac,在其他地方使用轻量级笔记本电脑。无论你坐在哪里,推理都发生在重型机器上。
团队场景: LM Studio Link 对于最多 2 个用户、每个 5 台设备是免费的 —— 总共 10 台设备。一个小团队可以共享一个强大的推理服务器,而没有任何云成本。
边缘 + 动力混合: 使用 Raspberry Pi 或轻量级设备作为 AI 任务的瘦客户端,在远程工作站上处理繁重的工作。我已经考虑尝试用我的 OpenClaw 设置来做到这一点。
7、几点需要记住的事情
它仍然在预览中,访问权是分批推出的。我很幸运能提前进入。从我的测试中的一些观察:
- 连接在本地网络上非常稳定。我还没有在互联网上广泛测试它(比如从咖啡店回家),但 Tailscale 骨干应该可以很好地处理这个问题。
- 在远程设备上加载模型仍然需要通常的时间 —— 你不是神奇地加速初始加载。
- 如果主机失去连接,你会失去对这些模型的访问权,直到它重新连接。
这些是微小的权衡,相对于你得到的回报。
8、更大的图景
我们在本地 AI 的一个有趣的拐点。模型变得越来越小,越来越强大。Apple Silicon 不断推动内存带宽上限。现在像 LM Studio Link 这样的工具正在解决分发问题 —— 使它能够在没有任何基础设施开销的情况下在正确的硬件上运行正确的模型。
这不仅仅方便。这是我们对本地 AI 基础设施思维方式的根本转变。
原文链接: I Turned My 16GB Mac Mini Into an AI Powerhouse — Here's How LM Studio Link Changed Everything
汇智网翻译整理,转载请标明出处