我用DGX Spark一年赚了$22000

没有人告诉我这件事好几个月。我现在告诉你,这样你就不会像我一样损失一整年。

让我从那个让我愤怒的数字开始。上季度我的云 GPU 开支稳定在每月 1900 美元。我为客户做付费 AI 工作——微调开源模型、托管 70B 助手、处理大量文档——这些工作一台普通的 2000 美元显卡根本拒绝运行,因为模型装不进它的显存。所以我按小时租用算力。这周 A100,下周 H100。有一天晚上盯着账单,我突然想通了:我向客户收取这些工作的费用,然后每个月把将近 2000 美元直接转给租用公司。这不是费用,这是利润正从门口走出去。

几天后有人在 Discord 里发了一张照片——一个像精装书大小的东西放在显示器旁边。配文:“杀了我的云账单,这东西在我桌上跑 120B 模型,两个月就回本了。”

那是 DGX Spark。NVIDIA 的。那个曾经代表服务器机房里价值 25 万美元机架的“DGX”徽章,不知怎么就被折叠到了桌面设备上。

我的那一台那一周就发货了。下面是我学到的一切。

1/ 这东西到底是什么。

大多数人听到“AI 超级计算机”都会想象一整排嗡嗡作响的服务器。NVIDIA 在 2025 年把这个画面拆掉了。他们在 1 月 CES 上以 Project DIGITS 的名义预告,3 月 GTC 上改名为 DGX Spark,10 月就送到买家手里了。Jensen 在台上的一句话就是整个论点:

NVIDIA · @nvidia · Jan 6, 2025
Grace Blackwell, on every desk. Project DIGITS is billed as the smallest AI supercomputer on earth, running models up to 200B parameters off a normal wall socket. The line that stuck with me: "AI will be mainstream in every application for every industry."
nvidianews.nvidia.com/news

剥掉营销外壳,看看硅本身:

DGX Spark - what's in the box:
Chip:              NVIDIA GB10 Grace Blackwell Superchip
AI throughput:     1 PFLOP (a quadrillion FP4 ops/second)
CPU:               20-core ARM (Grace)
GPU:               Blackwell, roughly RTX 5070-class cores
Memory:            128GB LPDDR5x, UNIFIED across CPU + GPU
Storage:           4TB Gen5 NVMe, self-encrypting
Networking:        ConnectX-7 - chain two units into one
Draw:              ~150-240W under load
Footprint:         150 x 150 x 50mm, 1.2kg - a thick paperback
Price:             $2,999 (launch price)

先别管每秒 petaflop。真正改变你生活的规格是 128GB 统一内存。4090 给你 24GB VRAM,5090 也才 32GB。一旦模型比你的 VRAM 大,它就根本加载不了——CUDA 抛出 OOM 错误,你又得回去租算力。Spark 给你 128GB,所以它能加载一台 2000 美元显卡连打开都打不开的模型。一台就能覆盖高达 200B 参数。把两台通过内置的 ConnectX-7 链路连起来,你就能在桌上跑 405B。

它不是用钱能买到的最快的盒子。它是那个能真正装下值得运行的模型的盒子。

2/ 现在说说让我恼火的部分。

这就是真实本地 AI 工作每个月在云端流血的样子:

┌─────────────────────────────────────┬──────────────────┐
│ What you're renting                 │ Monthly burn     │
├─────────────────────────────────────┼──────────────────┤
│ A100 80GB (part-time dev)           │ $600-1,200       │
│ H100 (fine-tuning runs)             │ $1,000-2,500     │
│ Hosted 70B inference                │ $300-900         │
│ The instance you forgot to kill     │ a nasty surprise │
├─────────────────────────────────────┼──────────────────┤
│ A working AI freelancer/builder     │ $1,500-3,000     │
└─────────────────────────────────────┴──────────────────┘

而 Spark 在相同工作负载下:

┌─────────────────────────────────────┬──────────────────┐
│ Line item                           │ Cost             │
├─────────────────────────────────────┼──────────────────┤
│ The box (you own it)                │ $2,999 once      │
│ Power at ~200W, work hours          │ ~$8-15/month     │
│ Cloud rental                        │ $0               │
├─────────────────────────────────────┼──────────────────┤
│ Steady-state monthly                │ ~$10             │
└─────────────────────────────────────┴──────────────────┘

以每月 1900 美元的云习惯计算,它大约 1.6 个月就能收回成本。

之后,我以前每个月交给租用公司的那约 1890 美元,就变成了我自己留下的利润——用的是我已经在给客户开票的完全相同的工作。第一年,这台机器就把大约 22,000 美元的钱从别人数据中心转回我的生意。而且它从不睡觉,从不限制我,也从不把任何一个字节送出我的桌子。

3/ 它能跑什么,为什么你的代码几乎注意不到区别

Spark 启动的是 DGX OS——NVIDIA 自己的 Ubuntu 定制版,里面完整烘焙了 AI 栈:CUDA,以及数据中心 DGX 系统上运行的相同库。因为底层是标准的 CUDA,开源生态基本第一天就能跑:Ollama、vLLM、PyTorch、Hugging Face、llama.cpp。

如果你之前已经在调用云端点,迁移就一行代码:

# Before - paying a rental company by the hour:
client = OpenAI(base_url="https://some-gpu-host/v1", api_key="sk-...")

# After - the box on your desk, meter switched off:
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # ignored anyway
)

同样的代码路径,同样的 JSON,同样的行为。唯一的区别是没有任何账单,也没有任何东西离开大楼。

单机 128GB 能处理的范围:

┌────────────────┬────────────┬───────────┬──────────────────────────┐
│ Model          │ Size       │ Fits?     │ Where it shines          │
├────────────────┼────────────┼───────────┼──────────────────────────┤
│ Llama 3.3 70B  │ 70B        │ Full BF16 │ Heavy assistant work     │
│ Qwen 3 (large) │ 30-110B    │ Yes       │ Multilingual, coding     │
│ DeepSeek-class │ up to 200B │ Quantized │ Reasoning, agent loops   │
│ FLUX.1         │ -          │ Yes       │ Image generation, local  │
│ 405B (2 boxes) │ 405B       │ Linked    │ Frontier-class, on-prem  │
└────────────────┴────────────┴───────────┴──────────────────────────┘

消费级 GPU 在挤压后大约到 30B 就到头了。Spark 可以全精度跑 70B,并向 200B 延伸。这个差距就是你值得拥有一台的全部理由。

4/ 把它立起来几乎尴尬地简单

# 1. Drop Ollama onto the Spark
curl -fsSL https://ollama.com/install.sh | sh

# 2. Pull a model no consumer card could hold
ollama pull llama3.3:70b

# 3. Serve it
ollama serve
# Your private 70B is live at http://localhost:11434

想要一个完全在你硬件上运行的 ChatGPT 风格浏览器窗口?一个容器就行:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

访问 localhost:3000,你就拥有了一个运行前沿级模型的私人聊天——没有 key,没有订阅计划,没有数据离开房间。

5/ 钱真正出现的地方

诀窍不是纸面上的节省。而是一旦 70B 模型每次调用对你来说零成本后,什么不再是“决策”。

NVIDIA 把早期机器送给了 Ollama、OpenAI、SpaceX、大学机器人实验室和 AI 艺术工作室——但对做生意的人来说,真正的玩法更简单:

如果你卖 AI 服务:跨客户整个私有代码库的私人编码代理、全团队依赖的始终在线内部助手、单位成本只是电费而不是 API token 的产品,所以每个客户都是利润。以前每次要 400 美元云账单的 overnight 微调,现在免费。

如果你处理任何敏感内容(安静的杀手级特性):合同和法律审查、患者记录、财务账簿、任何受 NDA 约束你绝不会粘贴到公共模型里的东西。在 Spark 上它永远不会跨出你的网络——也没有服务条款管你完全拥有的机器。

心态转变:云定价教会你配给。你会在让代理循环前、重新跑整个归档前、凭直觉微调前三思而后行。拥有这台机器后,这种犹豫消失了——而那通常正是真正藏着钱的地方。

6/ 我要跟你说实话的地方

这不是奇迹,任何声称它推翻数据中心的人都在试图卖你东西。

优势:

  • 加载消费级 GPU 根本装不下的 70B-200B 模型
  • 零 H100 租用进行微调和原型开发
  • 基本无边际成本的始终在线私有推理
  • 因为它讲 CUDA,所以是云端点的即插即用替代

限制:

  • 原始速度——任何能装进 5090 VRAM 的东西,5090 都更快
  • 单机在超过约 405B 时吃力(那是双机任务)
  • 服务数千活跃用户仍是数据中心的地盘
  • 2999 美元的 upfront 是一张真支票,尽管回本快

诚实的底线:如果你已经在为大型开源模型每月流血 1000 美元以上租 GPU,这目前是 AI 领域回本最快的购买之一。如果你只是偶尔和 7B 模型聊天,那便宜的边缘设备或你现有的 GPU 才是更聪明的选择。根据工作大小选机器,而不是炒作。

7/ 整套东西,一目了然

HARDWARE:    NVIDIA DGX Spark - $2,999 once
             nvidia.com/en-us/products/workstations/dgx-spark
             OEM builds: ASUS, Dell, HP, Lenovo, Acer, MSI, GIGABYTE

OS:          NVIDIA DGX OS (Ubuntu-based), preloaded
             Full NVIDIA AI stack, CUDA, NIM, NeMo

RUNTIME:     Ollama / vLLM / llama.cpp - free, open
             ollama.com

UI:          Open WebUI - local ChatGPT-style front end
             github.com/open-webui/open-webui

MODELS:      Llama 3.3 70B, Qwen 3, DeepSeek, FLUX.1
             all free via Hugging Face / Ollama

SCALE-UP:    Two units over ConnectX-7 -> 405B params

POWER:       roughly $8-15/month in electricity
PRIVACY:     nothing leaves your network, full stop

之后 recurring cost:几美元电费。这就是全部账单。

为什么是现在而不是以后。

NVIDIA 不是出于善意把 25 万美元的 DGX 缩小到桌面。他们希望下一波 AI 尽可能多地建立在他们的芯片上、在本地、由尽可能多的人构建——所以他们把入门价定在 2999 美元,并让 Jensen 亲自把机器送到 Musk 和 Altman 手里来传递信息。现在 Dell、HP、ASUS 和 Lenovo 都在出自己的 GB10 盒子,而软件层——Ollama、vLLM、CUDA 栈——几乎每周都在为这块芯片做优化。

与此同时,云 GPU 没有变得更便宜,速率限制持续收紧,而“我们的数据物理上去了哪里”现在是客户签字前会问的问题。

那些在 2026 年把 AI 工作负载拉到自己桌上的人,到 2028 年看起来会非常领先。

一本平装书大小的机器。一个完整的 petaflop。一个属于你、而不是任何其他人的 70B 模型。每月大约十美元运行——以及大约每月 1900 美元不再从你的生意里流血出去。

这就是整个交易。我只是希望我一年前就接受了它。


原文链接:HOW ONE $2,999 NVIDIA BOX MADE ME $22,000 IN A YEAR

汇智网翻译整理,转载请标明出处