Kitten-TTS:CPU可运行的TTS

如今大多数文本转语音模型都过于庞大。像Whisper一样大,拥有数十亿参数,需要GPU才能断断续续地说出“Hello World”。即使是那些声称是“轻量级”的模型,最终也需要比你的手机更多的芯片。当然,有很棒的声音,但只有在你拥有强大的GPU时才可用。

去年,Kokoro-82M被发布,它受到观众的喜爱不是因为质量,而是因为体积。并不是每个人都有GPU,为了让TTS对所有人可用,它必须在CPU上运行。

现在我们有了一个更小的模型,不仅小,而且是Kokoro的五分之一大小,即Kitten TTS。

1、Kitten TTS简介

现在进入Kitten TTS。它非常小。就像1500万参数那么小。这不仅仅比你见过的任何东西都小,它是目前最小的听起来不错的TTS。总大小不到25MB。不需要GPU。甚至不关心它运行在哪台机器上。你的笔记本电脑、树莓派,甚至可能是一块带USB端口的土豆。

我在Google Colab上测试了这个模型,即使在免费CPU上也能在几秒钟内运行。

但不要因为体积小就低估它。它仍然能提供优质的声音。并且实时快速。你可以构建聊天机器人、屏幕阅读器、游戏旁白,而无需将任务卸载到云端,没有延迟,也不用再用你的血签AWS账单。

主要亮点:

  • 小于25MB
  • 无需GPU即可在任何设备上运行
  • 清晰自然的声音
  • 实时发音,无延迟

2、如何免费使用Kitten TTS?

模型权重是开源的,可以从Hugging Face获取。

甚至代码也非常小,可以在Google Colab上直接运行,使用免费的CPU。

!pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl  

from kittentts import KittenTTS  
m = KittenTTS("KittenML/kitten-tts-nano-0.1")  

audio = m.generate("This high quality TTS model works without a GPU")  

# 保存音频  
import soundfile as sf  
sf.write('output.wav', audio, 24000)  

from IPython.display import display, Audio  

display(Audio('/content/output.wav'))

Kitten TTS仍处于开发者预览阶段,因此可能会有一些粗糙的地方。但这个想法是长期期待的。我们需要一个真正适合本地设备的语音模型,而不仅仅是理论上的。这个模型做到了。

而且它会发出咕噜声。安静而高效地在CPU上运行。


原文链接:Kitten-TTS : Smallest TTS for CPU

汇智网翻译整理,转载请标明出处