Kitten-TTS：CPU可运行的TTS

如今大多数文本转语音模型都过于庞大。像Whisper一样大，拥有数十亿参数，需要GPU才能断断续续地说出“Hello World”。即使是那些声称是“轻量级”的模型，最终也需要比你的手机更多的芯片。当然，有很棒的声音，但只有在你拥有强大的GPU时才可用。

去年，Kokoro-82M被发布，它受到观众的喜爱不是因为质量，而是因为体积。并不是每个人都有GPU，为了让TTS对所有人可用，它必须在CPU上运行。

现在我们有了一个更小的模型，不仅小，而且是Kokoro的五分之一大小，即Kitten TTS。

1、Kitten TTS简介

现在进入Kitten TTS。它非常小。就像1500万参数那么小。这不仅仅比你见过的任何东西都小，它是目前最小的听起来不错的TTS。总大小不到25MB。不需要GPU。甚至不关心它运行在哪台机器上。你的笔记本电脑、树莓派，甚至可能是一块带USB端口的土豆。

我在Google Colab上测试了这个模型，即使在免费CPU上也能在几秒钟内运行。

但不要因为体积小就低估它。它仍然能提供优质的声音。并且实时快速。你可以构建聊天机器人、屏幕阅读器、游戏旁白，而无需将任务卸载到云端，没有延迟，也不用再用你的血签AWS账单。

主要亮点：

小于25MB
无需GPU即可在任何设备上运行
清晰自然的声音
实时发音，无延迟

2、如何免费使用Kitten TTS？

模型权重是开源的，可以从Hugging Face获取。

甚至代码也非常小，可以在Google Colab上直接运行，使用免费的CPU。

!pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl  

from kittentts import KittenTTS  
m = KittenTTS("KittenML/kitten-tts-nano-0.1")  

audio = m.generate("This high quality TTS model works without a GPU")  

# 保存音频  
import soundfile as sf  
sf.write('output.wav', audio, 24000)  

from IPython.display import display, Audio  

display(Audio('/content/output.wav'))

Kitten TTS仍处于开发者预览阶段，因此可能会有一些粗糙的地方。但这个想法是长期期待的。我们需要一个真正适合本地设备的语音模型，而不仅仅是理论上的。这个模型做到了。

而且它会发出咕噜声。安静而高效地在CPU上运行。

原文链接：Kitten-TTS : Smallest TTS for CPU

汇智网翻译整理，转载请标明出处