Pocket TTS:CPU上的语音克隆
在我们的产品中,我们集成了出色的开源语音合成模型,如Chatterbox Turbo、Kokoro、Supertonic和VoxCPM。Kokoro是我最喜欢的模型之一。它轻量级,仅有8200万个参数,即使启用GPU加速,在macOS上也能提供良好的性能。最近,我遇到了一个很酷的项目叫做Pocket TTS。这是一个轻量级TTS引擎,设计用于在CPU上高效推理,使其摆脱GPU的约束。
Pocket TTS的特性:
- 轻量级,100百万参数
- 支持音频流,低延迟
- 支持语音克隆
- 无需GPU,高性能
- 支持长文本
1、在线演示
可以在你的浏览器中访问在线演示,输入您的文本,选择任何语音音调,然后点击播放按钮来合成语音。
2、本地部署
配置虚拟环境
bash python3 -m venv .venv
source .venv/bin/activate安装Pocket TTS
shell pip install pocket-tts使用Pocket TTS合成语音
from pocket_tts import TTSModel
import scipy.io.wavfile
tts_model = TTSModel.load_model()
voice_state = tts_model.get_state_for_audio_prompt(
"./voices/casual.wav"
)
audio = tts_model.generate_audio(
voice_state, "Released in January 2026, Kyutai Pocket TTS is our newest model.")
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())当您首次执行python3 pocket.py时,控制台将显示以下错误消息:
此时,您可以在控制台中运行命令hf auth whoami来查看您当前登录的Hugging Face账户。然后,在浏览器中打开网页https://huggingface.co/kyutai/pocket-tts并授予对pocket-tts仓库的访问权限。
接下来,创建或修改现有的Hugging Face token并授权访问kyutai/pocket-tts项目。完成配置后,重新运行python3 pocket.py命令。
Pocket TTS项目也引起了transformer.js的作者Joshua Lochner的注意,他想将模型转换为ONNX格式,以便Pocket TTS可以直接在浏览器中运行。
这确实是个好主意。Pocket TTS独立于GPU,轻量级,高性能,并直接在浏览器中运行,使用起来非常方便。个人而言,我对Pocket TTS支持语音克隆更感兴趣,所以我计划很快专注于测试其语音克隆功能。如果您对浏览器中的语音合成感兴趣,您可以阅读这篇文章。文章中介绍的Supertonic项目也是一个很棒的项目。
3、结束语
AI时代正在快速发展,每天都有新模型发布。然而,在本地运行顶级模型,尤其是图像和视频生成模型,对设备要求很高,从而限制了AI的广泛采用。使优秀的AI模型能够在不依赖GPU的情况下实现理想性能,并在边缘设备上运行,代表了AI发展未来的方向。
原文链接:Pocket TTS: High-Quality Voice Cloning That's Fast, Lightweight & Fully Open-Source
汇智网翻译整理,转载请标明出处