5个顶级Serverless GPU供应商

随着人工智能的爆炸式增长,一类新的云服务提供商出现,为初创公司、独立开发者和企业提供按需GPU工作负载。这些平台越来越多地用于生成式AI,从图像扩散模型到大型语言模型(LLM)。

如今,许多云服务提供商提供无服务器GPU。在2025年,顶级平台不仅在定价和GPU类型上有所不同,而且在冷启动性能上也不同——这是对延迟敏感应用程序用户体验的关键因素。冷启动延迟发生在模型需要在提供推理服务之前首次加载时。

在本文中,我们将比较前五名的无服务器GPU供应商——BeamRunPodGoogle Cloud RunBasetenReplicate——根据它们的冷启动速度进行排名。

0、方法论

冷启动时间是在多个模型使用案例中测量的:

  • 中型LLM:LLaMA 3 8B
  • 小型LLM:GPT-2
  • 图像模型:Flux, Stable Diffusion
  • 音频模型:Whisper
  • 无头浏览器:Chromium + WebGL
  • 通用容器:ffmpeg

我们通过为每个提供商创建一个应用并将其部署到他们的云中来对这些进行了基准测试。我们在每个提供商上运行了100个请求,分布在几天内。我们尝试在相同的GPU硬件和计算资源(CPU核心和内存)下进行评估,并取得了成功。

我们的评估基于以下指标:

  • 速度:部署时间、冷启动延迟、往返请求时间以及LLM的TTFT。
  • 成本:每GPU小时的成本、计费单位(秒与分钟)、空闲时间费用
  • 开发者体验:部署速度、学习曲线、所需配置、功能完整性
  • 可靠性:正常运行时间、延迟、网络性能

0.1 无服务器GPU基准测试

无服务器GPU提供商因多种因素而异,但最重要的是冷启动。由于无服务器GPU在请求之间会自动关闭,重启服务器的速度是选择提供商时非常重要的因素。下面,我们将分享不同提供商之间的基准测试结果。

1、Beam

  • 冷启动: 约2-3秒
  • GPU支持: T4, A10G, A100, H100, RTX 4090
  • 免费套餐: 每月$30免费信用

Beam是一个开源的无服务器平台,用于GPU工作负载。它专门针对快速冷启动,容器可以在<1秒内启动。

Beam的快速冷启动得益于其开源容器运行时beta9。与其他基于Docker的提供商不同,Beam运行自定义的容器运行时,从分布式缓存中懒加载容器镜像。

此外,Beam支持GPU检查点恢复,这使得可以保存GPU进程的快照以避免在冷启动之间重新加载模型权重。

在开发者体验方面,Beam提供了Python原生接口和Python SDK。整个应用程序的构建过程都是用Python完成的;不需要YAML文件或配置。

2、RunPod

  • 冷启动: 6-12秒
  • GPU支持: T4, L4, A100, H100, 消费级RTX GPU
  • 免费套餐:

RunPod提供按需GPU计算,专注于容器化工作流程。它支持各种消费级和数据中心GPU,并包含FlashBoot功能以减少活跃工作负载的启动时间。开发者通过Docker进行部署,提供了灵活性但需要更多的设置专业知识。

由于其基于Docker的界面,RunPod的设置学习曲线比其他平台更陡峭。

优点:

  • GPU工作负载的最佳定价
  • 使用FlashBoot实现亚秒级冷启动
  • 自带容器

缺点:

  • 设置的学习曲线较陡
  • 没有默认的免费套餐

3、Google Cloud Run

  • 冷启动: 20-30秒
  • GPU支持: 仅L4硬件(截至2025年中期)
  • 免费套餐: 无GPU信用;新账户有$300

Google Cloud Run是Google Cloud Platform的一部分,提供无服务器容器托管,并最近支持L4 GPU。它与GCP的其他服务紧密集成,支持按秒计费,并在空闲时自动扩展至零。与专业提供商相比,目前的GPU支持有限。

优点:

  • 易于集成到现有的GCP生态系统
  • 真正的按秒计费
  • 自动扩展至零

缺点:

  • 冷启动较慢
  • GPU选择有限
  • 需要更多设置(需要了解Docker)

4、Baseten

  • 冷启动: 16-60秒
  • GPU支持: T4, L4, A10G, A100, H100(支持MIG)——广泛的各种硬件和GPU实例
  • 免费套餐: 是的——免费部署层级,按使用付费

Baseten是一个用于部署和扩展机器学习模型的管理平台。它提供了一个Python SDK,一个称为Truss的打包系统,以及内置的批处理和自动缩放功能。Baseten支持多种GPU类型,包括MIG实例。

优点:

  • 支持任务队列的内置自动缩放和批处理
  • 使用Truss轻松部署模型

缺点:

  • 冷启动较慢
  • 按分钟计费(粒度较低)

5、Replicate

  • 冷启动: 公共模型即时启动;自定义部署需要60秒以上
  • GPU支持: T4, A100, H100(GPU硬件和GPU实例的选择有限)
  • 免费套餐: 是的,仅限公共模型

Replicate是一个模型托管平台,拥有大量预训练模型库,适用于图像生成和转录等任务。公共模型可以即时加载,而自定义模型则在私有容器中运行,冷启动时间较长。Replicate可以帮助寻求无代码或低代码模型部署选项的开发者。

优点:

  • 大量的模型库(无需代码即可部署)
  • 容易测试模型

缺点:

  • 私有模型的冷启动时间较长
  • 自定义部署的空闲时间会收费

6、结束语

如果你正在构建AI产品,并且需要最佳的冷启动性能、成本效益和易用性,那么BeamRunPodBaseten是2025年的最佳选择。

所有三位顶级表现者(Beam、RunPod、Baseten)在T4 GPU上每100,000次1秒推理调用的费用均低于每月20美元。

注: 所有冷启动时间均基于2025年6月的基准测试。实际性能可能因应用配置和使用的代码而异。


原文链接:The Top Serverless GPU Providers in 2025, Ranked by Cold Start

汇智网翻译整理,转载请标明出处