Pocket TTS:CPU上的语音克隆

Pocket TTS只有100M参数,无需GPU,在您的CPU上提供更快于实时的高质量语音合成。

Pocket TTS:CPU上的语音克隆

在我们的产品中,我们集成了出色的开源语音合成模型,如Chatterbox Turbo、Kokoro、Supertonic和VoxCPM。Kokoro是我最喜欢的模型之一。它轻量级,仅有8200万个参数,即使启用GPU加速,在macOS上也能提供良好的性能。最近,我遇到了一个很酷的项目叫做Pocket TTS。这是一个轻量级TTS引擎,设计用于在CPU上高效推理,使其摆脱GPU的约束。

Pocket TTS的特性:

  • 轻量级,100百万参数
  • 支持音频流,低延迟
  • 支持语音克隆
  • 无需GPU,高性能
  • 支持长文本

1、在线演示

可以在你的浏览器中访问在线演示,输入您的文本,选择任何语音音调,然后点击播放按钮来合成语音。

Pocket TTS演示

2、本地部署

配置虚拟环境

bash python3 -m venv .venv 
source .venv/bin/activate

安装Pocket TTS

shell pip install pocket-tts

使用Pocket TTS合成语音

from pocket_tts import TTSModel
import scipy.io.wavfile

tts_model = TTSModel.load_model()
voice_state = tts_model.get_state_for_audio_prompt(
    "./voices/casual.wav"
)
audio = tts_model.generate_audio(
    voice_state, "Released in January 2026, Kyutai Pocket TTS is our newest model.")
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())

当您首次执行python3 pocket.py时,控制台将显示以下错误消息:

Pocket TTS错误

此时,您可以在控制台中运行命令hf auth whoami来查看您当前登录的Hugging Face账户。然后,在浏览器中打开网页https://huggingface.co/kyutai/pocket-tts并授予对pocket-tts仓库的访问权限。

同意并访问仓库

接下来,创建或修改现有的Hugging Face token并授权访问kyutai/pocket-tts项目。完成配置后,重新运行python3 pocket.py命令。

Hugging Face仓库权限

Pocket TTS项目也引起了transformer.js的作者Joshua Lochner的注意,他想将模型转换为ONNX格式,以便Pocket TTS可以直接在浏览器中运行。

这确实是个好主意。Pocket TTS独立于GPU,轻量级,高性能,并直接在浏览器中运行,使用起来非常方便。个人而言,我对Pocket TTS支持语音克隆更感兴趣,所以我计划很快专注于测试其语音克隆功能。如果您对浏览器中的语音合成感兴趣,您可以阅读这篇文章。文章中介绍的Supertonic项目也是一个很棒的项目。

3、结束语

AI时代正在快速发展,每天都有新模型发布。然而,在本地运行顶级模型,尤其是图像和视频生成模型,对设备要求很高,从而限制了AI的广泛采用。使优秀的AI模型能够在不依赖GPU的情况下实现理想性能,并在边缘设备上运行,代表了AI发展未来的方向。


原文链接:Pocket TTS: High-Quality Voice Cloning That's Fast, Lightweight & Fully Open-Source

汇智网翻译整理,转载请标明出处