TOOL

Voicebox：本地优先的语音工作室

我和很多人一样，对 ElevenLabs 感到厌倦：声音听起来很棒，工作流程很简单，然后定价开始让人感觉像背景里一直在跑的计费器。

admin

Apr 28, 2026 • 12 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

每一个新草稿都要花钱。每一次额外实验都要花钱。如果你在处理私人音频，脑海中总会浮现同一个问题：我真的想把所有这些都交给别人的云端处理吗？

ElevenLabs 的产品依然更流畅，但它的免费计划有限制，即时语音克隆从付费计划开始，专业语音克隆则在更高层级。这正是像 Voicebox 这样的本地工具突然值得认真对待的原因。

而 Voicebox 并不是某个小型业余脚本。

它是一个本地优先、开源的语音工作室，运行在你自己的机器上。它可以克隆声音、生成旁白、构建多说话人项目、应用音频效果，并为开发者提供本地 API。换句话说：它更接近一个小型桌面制作工具，而不是简单的"粘贴文本，获取 MP3"应用。

1、什么是 Voicebox？

Voicebox 是一个免费的、开源的语音合成工作室，作为 ElevenLabs 的本地替代品而构建。它的文档将其描述为一个用于语音克隆、文本转语音、效果处理和基于时间线编辑的本地优先应用。它支持多种 TTS 引擎，运行在你的硬件上，并默认将模型和语音数据保留在你的机器上。

让它有趣的是功能的组合：

本地执行
语音克隆
多种 TTS 引擎
混响、音高变换、延迟、压缩和滤波器等效果
用于多说话人项目的 DAW 风格时间线编辑器* 面向开发者的本地 REST API

这种组合很少见。大多数免费语音工具只做一件事。Voicebox 试图成为一套完整的本地语音工作流程。

2、它实际上能做什么？

这才是重要的部分。

Voicebox 能做的不仅仅是每次生成一条清晰的语音。当前的文档和仓库显示它能很好地处理四件实际的事情：

2.1 从短样本克隆声音

Voicebox 建议使用 10 到 30 秒的清晰音频 进行克隆。文档在这里非常明确：清晰的输入非常重要。噪音、重叠语音和糟糕的录音质量会迅速影响结果。

一个实际的例子：

用你的麦克风录制 20 秒的清晰样本
创建语音配置文件
用克隆的声音生成新台词

好的样本通常能让你获得可识别的声音匹配。糟糕的样本会产生机器人般的输出、微弱的情感或奇怪的语速。

2.2 生成旁白

Voicebox 支持长文本生成，具有自动分块和交叉淡化功能，因此不仅限于微小的一行演示。这使其适用于 YouTube 旁白、有声书实验、应用配音和内部讲解。

2.3 构建多说话人对话

这是项目中最令人惊喜的功能之一。

Stories Editor 是一个基于时间线的编辑器，用于播客、有声书、对话和其他多语音内容。你可以为不同的说话人创建音轨，将片段拖入时间线，修剪它们，分割它们，并渲染最终混音。

2.4 应用效果

Voicebox 还包括音高变换、混响、延迟、合唱、压缩和滤波器等后处理效果。当原始生成感觉有点太干或太合成时，这很有用。

3、安装

在从旧帖子复制随机代码片段之前，有一个重要的更正：当前项目已经不再是一个基本的 pip install -r requirements.txt && python main.py 设置了。

当前文档中维护的开发者设置是：

git clone https://github.com/jamiepine/voicebox.git
cd voicebox
just setup
just dev

这会安装依赖项并启动后端和桌面应用。该项目现在需要 Python 3.11+、Bun、Rust 和 just 作为主要开发工作流工具。

如果你只需要后端，仓库也支持直接运行：

python -m backend.main --host 127.0.0.1 --port 17493

这会启动 Voicebox 在应用背后使用的本地 FastAPI 服务器。

4、一个实际的 Python 示例

我不会在这里使用像 from voicebox import TTS 这样的虚假导入，因为这不是当前项目的结构方式。

一个更准确的示例是调用本地 API：

import requests
payload = {
    "profile_id": "your-profile-id",
    "text": "Hello, this is a local Voicebox test.",
    "language": "en",
    "model_size": "1.7B",
    "instruct": "Speak clearly"
}
response = requests.post(
    "http://127.0.0.1:17493/generate",
    json=payload,
    timeout=300
)
response.raise_for_status()
print(response.json())

这更符合当前的后端文档：在本地运行 Voicebox，然后访问端口 17493 上的 /generate 端点。

5、实际使用场景

5.1 面向创作者

YouTuber 可以克隆自己的声音，修复一句话而无需重新录制整个视频，然后添加小效果并导出最终台词。

播客创作者可以在 Stories Editor 中用单独的语音音轨构建多主持人开场。

有声书创作者可以使用一个旁白声音加几个角色声音来制作粗略的制作草稿。

5.2 面向开发者

构建 AI 代理的开发者可以将 Voicebox 作为本地主机 API 运行，而不是为每个测试请求付费。

这在以下情况下很有用：

离线工作流程
无需 API 密钥
可预测的本地控制
私人内部工具

这里的本地后端和 REST API 是真正的优势。

5.3 面向企业

对于隐私敏感的工作流程，本地执行是最值得关注的原因。

如果你的团队处理私人访谈、内部培训内容、敏感旁白或受保护的客户数据，本地优先的设置通常比将所有内容发送到云服务更容易证明其合理性。Voicebox 明确将隐私定位为核心功能，因为模型和语音数据默认保留在你的机器上。

6、性能与要求

这就是"免费"部分变得更复杂的地方。

Voicebox 是免费软件，但它不是在硬件或设置工作方面的免费。

官方要求列表：

最低： 8GB 内存，5GB 可用存储空间，现代多核 CPU
推荐： 16GB+ 内存，10GB+ 可用存储空间，支持 CUDA 的 NVIDIA GPU

文档还警告说，首次使用会下载大型模型，而且 CPU 推理比 GPU 慢得多。

文档中的一些实际性能说明：

首次生成可能需要 2 到 5 分钟，因为模型正在下载和加载
Qwen 模型下载在首次使用时大约为 2-4GB
CPU 模式可以工作，但可能 慢 5 到 10 倍
远程模式估计将 12 核 CPU 放在每 10 个词 20-30 秒 左右， RTX 3060 列在每 10 个词 5-7 秒 左右， RTX 4090 列在每 10 个词 2-3 秒 左右

这就是真实的情况：Voicebox 在 CPU 上可用，但有真正的 GPU 会感觉好得多。

7、语音质量到底如何？

这就是 ElevenLabs 仍然占优势的地方。

Voicebox 可以听起来很好。有时非常好。但质量不够一致。

文档说 Voicebox 支持多种引擎和语言，输出质量很大程度上取决于：

你选择的引擎
源样本的清晰程度
标点和措辞
你的硬件是否足够强大以良好运行更好的模型

我的诚实总结是：

自然度： 扎实，但并不总是精致
情感： 可能，但比顶级云系统弱
语速： 标点良好时不错
伪影： 仍然会发生，特别是样本弱或文本长时

在最好的时候，Voicebox 听起来对于本地工具来说令人印象深刻地接近。

在最坏的时候，它听起来：

有点机器人般
有点平淡
太谨慎
或者停顿像机器而不是人放置的

故障排除文档甚至直接指出了同样的问题：机器人般的声音、缺失的韵律、发音错误和微弱的情感通常来自糟糕的样本或弱的文本格式。

所以不，这不是简单的"免费的 ElevenLabs 质量"一对一比较。

但它比许多人对本地开源工具的期望要好得多。

8、实际测试案例

这里有一个感觉公平的简单测试。

输入文本：

"欢迎回到频道。今天我在测试一个完全本地的语音工作流程。"

我想要：

一句清晰自然的句子
"频道" 后有一个短暂的停顿
一个听起来像源样本的声音
没有奇怪的单词重音

用 20 秒的好样本，Voicebox 应该能基本正确地获得身份，这句话应该可用于草稿或内部项目。

可能仍然出错的地方：

语调可能比预期的更平淡
某些单词可能重音奇怪
停顿时间可能感觉有点机械
首次运行可能非常慢，因为模型仍在下载/加载

这就是我从当前工具状态预期的模式：潜力巨大，但不是"按按钮，完美音频，完成"。

9、Voicebox vs. ElevenLabs

这是诚实的比较。

Category	Voicebox	ElevenLabs
Voice quality	Good, but less consistent	More polished and more reliable
Ease of use	Medium to hard	Very easy
Cost	Free software, but you pay in hardware and time	Free tier plus paid plans
Privacy	Local-first, data stays on your machine	Cloud-based
Performance	Great on GPU, much slower on CPU	Fast hosted inference
Setup complexity	Real setup and debugging required	Minimal setup
Voice cloning	Local cloning from short samples	Instant and Professional Voice Cloning
Best for	Builders, tinkerers, privacy-focused users	Teams that want speed and polish

这种分歧在官方文档中相当清楚。

Voicebox 将自己定位为本地开源替代品。ElevenLabs 将自己定位为围绕托管质量、速度和像 Eleven v3 这样的表达模型以及低延迟 Flash 的服务。

所以简单的版本是：

ElevenLabs 在精致、便利和真实感方面获胜
Voicebox 在控制、隐私和成本方面获胜

10、没人提到的隐藏权衡

这是人们通常跳过的部分。

10.1 设置时间是真正的账单

SaaS 工具节省时间。本地工具消耗时间。

Voicebox 需要你考虑：

依赖项
模型下载
端口
GPU 支持
应用数据文件夹
首次运行延迟

如果你喜欢拥有自己的技术栈，这没问题。如果你只需要十分钟内的配音，这就不好了。

10.2 输出并不总是保持一致

对于云工具，主要产品是一致性。

对于 Voicebox，结果可能因语音样本、引擎选择、标点和硬件而有很大差异。你获得更多控制，但也获得更多不均匀的结果。

10.3 磁盘使用量会累积

模型下载并不小。文档指出首次使用时会下载数 GB 的模型，这意味着本地存储成为成本的一部分。

10.4 本地隐私也意味着本地责任

Voicebox 的远程模式文档明确说明 API 目前没有身份验证，应该只在受信任的网络上使用或在你自己的安全层后面使用。这是一个重要的提醒：本地控制是强大的，但你也继承了安全工作。

11、谁应该使用它

Voicebox 适合：

厌倦了 recurring TTS 成本的创作者
想要本地语音 API 的开发者
隐私敏感的团队
不介意设置工作的技术用户
想要比 SaaS 产品更多控制的人

Voicebox 可能不适合：

想要零设置的用户
需要立即获得最佳真实感的团队
任何在紧迫截止日期下工作且没有时间调试的人
想要完全托管托管工作流程的人

这就是真正的分界线。

这不是关于 Voicebox 是"好"还是"坏"。

这是关于你想要所有权还是便利性。

12、Voicebox 里面有什么？

不深入细节，这个项目构建得更像一个真正的本地应用，而不是一个简单的脚本。

公共文档和仓库指向：

一个 Tauri 桌面应用
一个 FastAPI 后端
用于本地数据的 SQLite
多种 TTS 引擎
一个本地 REST API
用于转录功能的 Whisper
用于多说话人项目的时间线编辑

这解释了为什么该工具感觉比普通的开源 TTS 仓库更广泛。它的目标是成为一个完整的本地语音工作站。

13、结束语

Voicebox 不是一个神奇的 ElevenLabs 替代品。

这是诚实的答案。

如果你想要最好的语音质量和最少的努力，ElevenLabs 仍然更容易推荐。它的托管工作流程更流畅，模型更精致，它消除了大部分摩擦。

但 Voicebox 仍然是我一段时间以来见过的最有趣的本地 AI 语音工具之一。

这里更大的故事不是 ElevenLabs 已死。而是本地 AI 工具已经足够好，云端便利不再是唯一严肃的选择。一旦发生这种情况，按月付费开始感觉不那么像默认选项，而更像一种选择。

原文链接: Goodbye ElevenLabs: The Free AI Voice Tool Nobody Told You About

汇智网翻译整理，转载请标明出处