Pocket TTS：CPU上的语音克隆

在我们的产品中，我们集成了出色的开源语音合成模型，如Chatterbox Turbo、Kokoro、Supertonic和VoxCPM。Kokoro是我最喜欢的模型之一。它轻量级，仅有8200万个参数，即使启用GPU加速，在macOS上也能提供良好的性能。最近，我遇到了一个很酷的项目叫做Pocket TTS。这是一个轻量级TTS引擎，设计用于在CPU上高效推理，使其摆脱GPU的约束。

Pocket TTS的特性：

轻量级，100百万参数
支持音频流，低延迟
支持语音克隆
无需GPU，高性能
支持长文本

1、在线演示

可以在你的浏览器中访问在线演示，输入您的文本，选择任何语音音调，然后点击播放按钮来合成语音。

Pocket TTS演示

2、本地部署

配置虚拟环境

bash python3 -m venv .venv 
source .venv/bin/activate

安装Pocket TTS

shell pip install pocket-tts

使用Pocket TTS合成语音

from pocket_tts import TTSModel
import scipy.io.wavfile

tts_model = TTSModel.load_model()
voice_state = tts_model.get_state_for_audio_prompt(
    "./voices/casual.wav"
)
audio = tts_model.generate_audio(
    voice_state, "Released in January 2026, Kyutai Pocket TTS is our newest model.")
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())

当您首次执行python3 pocket.py时，控制台将显示以下错误消息：

Pocket TTS错误

此时，您可以在控制台中运行命令hf auth whoami来查看您当前登录的Hugging Face账户。然后，在浏览器中打开网页https://huggingface.co/kyutai/pocket-tts并授予对pocket-tts仓库的访问权限。

同意并访问仓库

接下来，创建或修改现有的Hugging Face token并授权访问kyutai/pocket-tts项目。完成配置后，重新运行python3 pocket.py命令。

Hugging Face仓库权限

Pocket TTS项目也引起了transformer.js的作者Joshua Lochner的注意，他想将模型转换为ONNX格式，以便Pocket TTS可以直接在浏览器中运行。

这确实是个好主意。Pocket TTS独立于GPU，轻量级，高性能，并直接在浏览器中运行，使用起来非常方便。个人而言，我对Pocket TTS支持语音克隆更感兴趣，所以我计划很快专注于测试其语音克隆功能。如果您对浏览器中的语音合成感兴趣，您可以阅读这篇文章。文章中介绍的Supertonic项目也是一个很棒的项目。

3、结束语

AI时代正在快速发展，每天都有新模型发布。然而，在本地运行顶级模型，尤其是图像和视频生成模型，对设备要求很高，从而限制了AI的广泛采用。使优秀的AI模型能够在不依赖GPU的情况下实现理想性能，并在边缘设备上运行，代表了AI发展未来的方向。

原文链接：Pocket TTS: High-Quality Voice Cloning That's Fast, Lightweight & Fully Open-Source

汇智网翻译整理，转载请标明出处