文本转语音 (TTS) 技术在无障碍、教育和虚拟助手等行业中应用广泛,因此过去一年对它的需求猛增。就像 LLM 和图像生成模型的进步一样,TTS 模型也不断发展,能够从文本输入生成更逼真、更像人类的语音。 如果你希望将 TTS 集成到你的系统中,开源模型是一个绝佳的选择。与专有替代方案相比,它们提供了更大的灵活性、控制力和定制性。在这篇文章中,我们将探讨当今一些最流行的开源 TTS 模型。我们将深入研究它们的优点和缺点,帮助您选择最适合您需求的模型。最后,我们将提供一些常见问题的答案。 1、XTTS-v2XTTS 是最流行的语音生成模型之一。其最新版本 XTTS-v2 能够仅通过 6 秒的快速音频样本将声音克隆成不同的语言。这种效率消除了对大量训练数据的需求,使其成为语音克隆和多语言语音生成的有吸引力的解决方案。 坏消息是,XTTS 背后的公司于 2024 年初关闭,将该项目留给了开源社区。 但是,源代码仍然在 GitHub 上可用,XTTS-v2 仍然是 Hugging