MODEL-ZOO

VibeVoice：超长输出TTS

VibeVoice是一个免费的NotebookLM替代品，其模型形式覆盖了非常长的演讲和多轮对话。

admin

Aug 27, 2025 • 6 min read

我对2025年最感兴趣的一件事是音频AI的崛起。我们已经看到一系列TTS模型、对话AI、音乐生成模型相继发布，现在微软这个巨头也加入了竞争，并推出了VibeVoice，这是一个免费的NotebookLM替代品，其模型形式覆盖了非常长的演讲和多轮对话。

1、什么是VIBEVOICE？

VIBEVOICE是由微软研究院开发的一种长篇、多说话人的文本到语音（TTS）系统。

它能够生成长达90分钟的对话式音频，包含多达4个不同的说话人，并且质量高，具有自然的轮流发言。

它基于一个下一个标记扩散框架，意味着它通过扩散过程逐个标记预测音频，而不是传统的采样方法。

这不是某种播客语音克隆的噱头，它是为长时间的真实对话结构、连贯性和语音保真度而构建的。

2、它的独特之处是什么？

超长上下文：处理64K上下文窗口，支持长达90分钟的音频。
多说话人支持：单次会话中最多支持4个不同的说话人，并具有真实的来回动态。
混合分词器系统：结合了**声学（基于VAE）和语义（基于ASR）**分词器。
压缩大师：仅需7.5个标记/秒即可实现3200倍压缩，意味着快速生成且计算资源消耗极低。
无需每个说话人单独的语音模型：它使用文本+语音提示+说话人ID，全部嵌入在一个流中。
下一个标记扩散：采用逐标记扩散头，使生成更平滑、高质量，并有更好的噪声建模。
简单的输入设计：您只需提供一个连接的输入，包括语音提示嵌入和由说话人标记的文本脚本。

3、它是如何工作的

核心：

输入：您提供以下内容的组合：

每个说话人的简短语音提示（zN）
每个说话人的文本脚本（TN）
用角色ID如“说话人1”、“说话人2”等进行标记。

分词：

音频通过两个分词器进行处理：
声学分词器：一种VAE（实际上是σ-VAE变体），在保持质量的同时大幅压缩音频。
语义分词器：像ASR模型一样训练，捕捉“内容”（what），而不仅仅是“声音”（how）。

语言模型（LLM）：

它使用Qwen2.5（1.5B或7B），经过训练以处理长的多模态序列。
输入通过这个LLM。

扩散解码器：

不是直接输出音频，而是一个小的扩散头接收每个标记的隐藏状态并逐步去噪。
最终音频通过将VAE标记转换回波形的解码器重建。

输出：您得到干净、自然的语音，跨说话人的流畅性良好，时间真实。

架构总结

分词器：

声学：σ-VAE，基于Transformer，3200倍下采样。
语义：基于Transformer的编码器 + ASR风格解码器（训练后丢弃）。
核心模型：预训练的Qwen2.5 LLM（1.5B或7B参数）
解码器：轻量级的4层扩散头 + VAE解码器。

训练：

分词器被冻结。
仅训练LLM和扩散头。
使用课程学习（从较短的序列开始，逐渐增长到64K个标记）。
无分类器引导在推理期间提高质量。

4、基准测试

VIBEVOICE 7B在所有3个人类评判类别中都超过了Gemini和ElevenLabs等专有和开源系统。

分词器质量（LibriTTS测试集）：

PESQ（感知质量）：3.068（干净），2.848（其他）
UTMOS（主观自然度）：4.181（干净），3.724（其他）
分词率：仅7.5个分词/秒

它们在压缩音频到极端程度的同时，远远超越了大多数现有的分词器。

主要限制：

语言：仅支持英语和中文。
无背景音：只有纯语音，没有音乐或音效。
无重叠语音：说话人不会互相打断。
安全性：可能被滥用为深度伪造或冒充。

微软明确反对在没有进一步防护措施的情况下进行商业部署。

5、如何免费使用Vibe Voice？

该模型有两种版本，1.5B和7B，权重是开源的。

VIBEVOICE不仅仅是一个TTS模型。它正在推动长篇对话合成的边界，通过一个干净、模块化的架构，融合了音频压缩、语言建模和扩散生成。而且由于7.5Hz的分词，它在资源使用上并不臃肿。

就扩展性和对话质量而言，这可能是目前最适合播客、有声书或合成对话的最佳公开系统。

原文链接：Microsoft VibeVoice : Best Free TTS for long speech, multi speaker conversations

汇智网翻译整理，转载请标明出处