MODEL-ZOO

SongBloom：歌曲生成模型

SongBloom不仅输出音频片段，还能生成连贯的完整歌曲，包括歌词、人声、乐器、前奏和副歌，听起来像真正的音乐。

Sep 22, 2025 • 6 min read

人工智能已经尝试了几年来创作音乐，但如果你听了大多数这些尝试，你会发现两个问题：

小部分（比如吉他riff或一段歌声）单独听起来可能不错，但它们无法组合成一首完整的歌曲。或者大结构（如主歌、副歌、桥段）大致存在，但音频本身听起来平淡或人工。

SongBloom 是由来自香港中文大学、腾讯和南京大学的研究人员开发的新系统。他们的目标是让AI不仅输出音频片段，还能生成连贯的完整歌曲，包括歌词、人声、乐器、前奏和副歌，听起来像真正的音乐。

1、SongBloom的工作原理

可以把它想象成艺术家作画的过程：

SongBloom也以同样的方式处理音乐：

这里有一个巧妙的变化：SongBloom不是先完成整个草图，然后再进行细化，而是来回切换。它先草拟一点，再细化一点，然后再次草拟，如此反复。这种持续的来回操作在整个过程中保持歌词、旋律和乐器的一致性。

输入：

输出：

许多AI歌曲生成模型来了又走了，但SongBloom不同

它保持结构。许多模型在歌曲中途会失去方向（例如，无休止地重复副歌）。SongBloom尊重歌词中的主歌-副歌布局。
它听起来干净。与使用高度压缩的“音频标记”（其他AI系统中常见）不同，SongBloom直接使用连续的音频信号。这有助于保留高频细节，使歌声不会听起来模糊。
它效率高。通过以小块（每次约0.6秒）生成音乐，它可以避免在大型序列上浪费计算资源，同时保持连贯性。
它融合了两个世界。语言模型风格的“草图”+基于扩散的“音频细化”，而不是分开进行。

研究人员将SongBloom与开源模型（SongGen、SongEditor、DiffRhythm、YuE）和商业工具（Suno、Udio）进行了比较。

在自动测试（客观指标）中：