VoxCPM：无需分词语音克隆AI

大多数文本到语音系统遵循相同的配方：将语音分解成称为标记的小符号块，然后将其重建为声音。这在纸上看起来很整洁，但实际听起来可以听到缺陷。机械化的表达、断断续续的语调，声音听起来像是在实验室里拼凑出来的。

VoxCPM摒弃了这一想法。不做分词。相反，它生成连续的语音流。

这种差异看似微不足道，但结果却非常巨大：能够适应上下文的语音，听起来更自然，甚至能从一段短剪辑中以令人难以置信的准确性复制一个人的声音。

1、不分词的重要性

当你对语音进行标记时，你会强制它进入离散格式，就像把音乐切成MIDI音符然后尝试重建小提琴独奏一样。精细的细节会消失。VoxCPM不会做出这种妥协。它在原始连续空间中建模语音，这意味着韵律（语音的起伏）、节奏和细微的声音变化都被保留下来。

当语音需要传达情感时，这一点尤为重要。像“你是在开玩笑吗？”这样的一句话可以是玩世不恭的、愤怒的或震惊的。大多数TTS引擎对待它的方式都是一样的。

VoxCPM试图从文本中猜测意图并相应地传达。它并不完美，但更接近人类自然说话的方式。

在内部，VoxCPM基于MiniCPM-4，这是一个相对紧凑的模型，参数量为五亿。

不要被大小所迷惑。通过分层建模和一种称为FSQ（细粒度语义量化，基本上是一种平衡意义和声音质量的方法），它能够将语义与声学分开。

通俗地说：该系统理解所说的内容以及应该如何发声，而不会混淆两者。这种分离使语音稳定且富有表现力。

这是引人注目的部分。给VoxCPM一个简短的参考片段，比如某人说话的10秒音频，它可以生成该特定声音的新句子。

它不仅仅复制音色（声音的整体色彩）。它准确捕捉了细微之处：口音、情感色调和节奏。

从积极的一面来看，这对辅助工具、有声读物、语言学习，甚至将电影配音到其他语言同时保持演员的声音来说都是一个突破。

从黑暗的一面来看，你可以看到明显的风险：假电话、虚假信息、身份冒充。这项技术本身是中立的，但社会后果并非如此。任何部署都必须配有防护措施，如水印、明确的免责声明，或者至少有一些伦理规范。

速度是许多TTS模型失败的地方。VoxCPM在消费级GPU（NVIDIA RTX 4090）上实现了实时因子（RTF）为0.17。翻译：它可以比播放该语音所需的时间快近六倍生成语音。这使其不仅适用于离线合成，还适用于实时场景：助手、聊天机器人、语音驱动的游戏。

想象一下VoxCPM就像一个厨房。

这不仅仅是一个比喻。这种“旋钮和调节器”的方法使其对研究人员和希望获得精细控制的人以及只需要即插即用系统的普通开发者都有用。

在公开的零样本基准测试中，VoxCPM与CosyVoice、SparkTTS和F5-TTS等一些最强系统竞争激烈。

它在词错误率（WER）、字符错误率（CER）和相似性（克隆语音与目标的匹配程度）方面表现良好。

这里最突出的是平衡。一些模型在低错误率上表现很好，但声音很机械。其他模型听起来自然，但在准确性上有所下降。

VoxCPM在保持模型轻便的同时，实现了两者的平衡，使其能够高效运行。

五亿个参数听起来可能很大，但在该领域中它算是精简的。

这不是魔法棒。

这些限制不会终结这个项目，但它们真实地描述了它。它仍然是一个研究前沿，而不是一个消费者安全产品。

这里的真实故事是架构方面的。多年来，文本到语音的研究一直专注于标记。VoxCPM表明，你可以放弃这个假设，仍然获得不仅匹敌而且有时超越基于标记的系统的成果。这种飞跃改变了该领域的思维方式。

而且它不是被隐藏起来的。代码和权重已按照Apache-2.0许可证发布。任何人都可以研究它、在其基础上构建或进行调整。

VoxCPM证明了小的技术转变，比如放弃标记，可以带来输出质量的重大飞跃。它生成的语音并不完美，但它在早期模型很少做到的方式上显得生动。无论这种生命力是用来讲述更好的故事、帮助人们交流，还是仅仅欺骗某人打电话，这取决于使用它的用户，而不是模型本身。

汇智网翻译整理，转载请标明出处