用 Docker 运行本地 LLM 模型

几个月来，我一直在断断续续地尝试在本地运行 LLM 模型。每次快要成功的时候，总会遇到一些莫名其妙的问题——Python 版本、CUDA 问题，或者一些一小时前还不存在的随机构建错误。你懂的。

但最近我尝试使用 Docker + Unsloth 运行模型，说实话，这是我第一次感觉整个过程不像是在做科学实验。基本上就是：安装 Docker → 运行命令 → 搞定，你就能和一个 20B 的模型聊天了。

所以我决定用简单的语言解释一下它的工作原理，这样你就不用像我一样费劲地摆弄电脑了。

1、Docker + Unsloth ：完美地协同

Docker 已经解决了应用程序“在我的机器上运行正常”的问题。现在，它正在解决模型运行的同样问题。Unsloth 构建的动态 GGUF 模型体积小、速度快。Docker 会打包它们的运行时环境，所以你无需手动安装 llama.cpp 之类的东西。

没有复杂的设置。无需处理依赖项。模型……运行。

这就是它真正的魔力所在。

快速指南：

RAM + VRAM 的大小至少应与你拉取的模型大小相同。

所以，如果您要下载一个 13.8GB 的模型，那么您的总内存至少应该有 14GB。如果少于 14GB，模型仍然可以运行，但您会遇到卡顿。

一些简单的提示：

您只需要知道这些就够了——无需图表或数学计算。

确保 Docker 正常运行。输入：

docker

如果它输出一些内容，那就没问题了。

现在，运行一个模型。以下是我使用的一个示例：

docker model run ai/gpt-oss:20B

它会加载模型。稍等片刻。然后您就可以开始输入提示信息了。

另一个例子：

docker model run ai/Qwen3-Coder-30B-A3B-Instruct-GGUF

如果您想要 Hugging Face 的特定引用：

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16

就是这样。无需设置，无需调整。

如果您想要不同的数量级别，只需添加：

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL

或者更小的级别：

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L

没什么好说的了。它就是好用。

如果您更喜欢点击按钮而不是输入命令，Docker Desktop 现在有一个“模型”选项卡。

打开它，点击“添加模型”，输入模型名称，选择数量，等待下载完成，然后点击“运行”。

之后会显示一个小窗口，您可以在其中输入提示信息。感觉就像一个迷你版的离线 ChatGPT 窗口。

如果您不想使用终端，这非常方便。

任何受 llama.cpp 支持的模型通常也能在这里运行。因此，如果发布了新的 Gemma、Qwen、Llama 或任何其他模型，它通常会很快出现，并且使用相同的命令模式运行。

Docker 模型运行器 (DMR) 为模型提供了一个简单、可预测的环境。Docker 会为您处理所有组件，而无需您自行安装。

您将获得：

如果您曾经搞砸过 Python 环境，您就会明白这一点，相信我。

模型运行后，您可以尝试以下测试：

Write a small Python script that prints how many times each word appears in a file.

或者：

Explain how to run a Q4 quant 13B model on Docker.

它能很好地处理这些任务。

8、结束语

如果您一直因为本地 LLM 过于繁琐或技术性太强而避免使用，Docker 让一切变得简单得多。现在只需一行简单的命令即可。您甚至无需担心 CUDA、驱动程序或其他任何内容。

只需选择一个与您的内存容量相匹配的模型即可。

汇智网翻译整理，转载请标明出处