TADA:零幻觉 TTS 模型
Hume开源了TADA,零内容幻觉。0.09 RTF。2048 token 窗口容纳 700 秒音频。MIT 许可证。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
有没有人觉得最近发布的模型大多是增量改进?这里更好的韵律,那里稍低的延迟。又一个声音克隆演示,在精心挑选的样本上听起来很棒,但在超过 30 秒的任何内容上都会崩溃。不是所有模型都这样,但我们似乎已经达到了某种可能性的天花板。自从 GPT-4o 在文本领域以及 Kokoro TTS 和 Elevenlabs 的 TTFA 模型在语音领域之后,事情变得有点停滞。嗯,好在有一些有趣的东西正在酝酿。
1、TADA
TADA 与众不同。不是因为它听起来最好(确实不是,我们稍后会讨论)。而是因为它攻击了每个生产 TTS 系统都悄悄掩盖的问题。
幻觉。
不是 LLM 编造事实的那种。是语音的那种。模型跳过一个单词。或重复一个单词。或插入整个幻影句子,而这些根本不在转录中。如果你曾在生产环境中部署过基于 LLM 的 TTS 系统,你就知道我在说什么。FireRedTTS-2 在 1000 个测试样本中有 41 个出现幻觉。Higgs Audio V2 有 24 个。VibeVoice 有 17 个。这些不是边缘案例;这些是让生产团队失眠的失败模式。
TADA 在零个样本上出现幻觉。
事情是这样的:这不是基准测试的胜利。这是架构上的保证。而这两者是有区别的。
2、TADA 实际工作原理(1:1 对齐技巧)
每个基于 LLM 的 TTS 系统都面临同样的根本问题。文本 token 和声学 token 以截然不同的速率运行。文本大约每秒 3 个 token。声学帧?每秒 25 到 75 个。这是 10-25 倍的错配。
标准方法是使用编解码器(EnCodec、DAC、Mimi 等)将音频离散化为声学 token,然后在 LLM 的序列中与文本 token 交错或连接它们。问题是什么?这些声学序列比文本长 10 倍。2048 token 的上下文窗口很快被耗尽。70 秒音频你就完了。而且因为文本和音频 token 是异步的,模型可能会在转录中丢失位置。跳过一个词。重复一个短语。产生内容幻觉。
TADA 采取了一条完全不同的路径。它不使用固定速率将音频压缩成离散 token,而是将音频表示直接对齐到文本 token。每个文本 token 对应一个连续声学向量。该架构使用基于 CTC 的强制对齐器(基于 Wav2Vec2 构建),在 LLM 自己的子词词汇表上训练以建立这种映射。对齐器识别哪些音频帧对应哪些文本 token。然后 VAE 编码器将每个文本 token 边界内的声学特征压缩成单个潜在向量。
结果?文本和语音在语言模型中同步移动。一个 LLM 步骤产生一个文本 token 和一个声学表示。没有交错。没有异步序列。模型没有机会丢失位置。
哦!这对上下文效率有巨大的副作用。传统系统在约 73 秒音频内耗尽 2048 token 窗口,而 TADA 可以容纳约 682 秒。近 10 倍的改进。这不是渐进式的。这是不同的能力等级。
3、数字:快,但不是最漂亮的
说实话,基准测试图景是微妙的。TADA 无疑是快速和可靠的。但"最佳 TTS"是一个多维度的游戏。
速度
在 H100 上达到 0.09 RTF。这意味着生成 1 秒音频需要 0.09 秒。作为对比,XTTS-v2 运行在 0.19 RTF,FireRedTTS-2 在 0.76,VibeVoice 在 0.51,Higgs Audio V2 在 0.44。TADA 比每个可比的基于 LLM 的开源系统快 2-8 倍。只有 Kokoro-82M(一个微小的 82M 参数非 LLM 模型)在绝对速度上更快,但它牺牲了自然度且无法进行声音克隆。
幻觉率
零。在 1000+ LibriTTSR 测试样本上。由架构保证,而非运气。1:1 对齐使内容幻觉在结构上不可能。
声音克隆质量(SIM)
在 SeedTTS-Eval 上达到 77.9,在 LibriTTSR-Eval 上达到 80.2。有竞争力但不是顶尖。VibeVoice 在相同基准上达到 79.5/84.7。Higgs Audio V2 达到 79.7。TADA 用几点说话人相似度换取幻觉保证。
音频质量(oMOS)
2.79-2.85 范围。这是差距显现的地方。IndexTTS2 和 VibeVoice 在主观自然度上得分更高。Hacker News 上的人也注意到了;"令人印象深刻的富有表现力,但音频质量有些不对劲,我说不清楚是什么。" 一个微妙的调制伪影出现在所有样本中。一位评论者将其描述为"几乎像某种谐波或相移。"
字符错误率(CER)
在 SeedTTS-Eval 上为 0.73,在 LibriTTSR-Eval 上为 0.55。扎实。比 Higgs Audio V2(9.57/1.88)和 FireRedTTS-2(0.81/1.44)好很多。
所以。TADA 不是音质最好的模型。但它可能是最值得信赖的。对于生产系统,单个幻觉句子就可能破坏用户体验?这种权衡是值得的。
在 GitHub 上尝试(https://github.com/HumeAI/tada):
或在 Hugging Face 上试用演示(https://huggingface.co/spaces/HumeAI/tada):
pip install hume-tada
# 文本转语音
import torch
import torchaudio
from tada.modules.encoder import Encoder, EncoderOutput
from tada.modules.tada import TadaForCausalLM
device = "cuda"
# 编码器单独加载(不在模型内部)
encoder = Encoder.from_pretrained("HumeAI/tada-codec", subfolder="encoder").to(device)
model = TadaForCausalLM.from_pretrained("HumeAI/tada-3b-ml", torch_dtype=torch.bfloat16).to(device)
audio, sample_rate = torchaudio.load("samples/ljspeech.wav")
audio = audio.to(device)
prompt_text = "The examination and testimony of the experts, enabled the commission to conclude that five shots may have been fired."
prompt = encoder(
audio, text=[prompt_text], sample_rate=sample_rate
)
# 可选:保存提示以跳过未来运行的编码器
# prompt.save("prompt_cache.pt")
# prompt = EncoderOutput.load("prompt_cache.pt", device=device)
output = model.generate(
prompt=prompt,
text="Please call Stella. Ask her to bring these things with her from the store.",
)
# 多语言生成
import torch
import torchaudio
from tada.modules.encoder import Encoder
from tada.modules.tada import TadaForCausalLM
device = "cuda"
encoder = Encoder.from_pretrained("HumeAI/tada-codec", subfolder="encoder", language="ja").to(device)
model = TadaForCausalLM.from_pretrained("HumeAI/tada-3b-ml", torch_dtype=torch.bfloat16).to(device)
# 加载目标语言的参考音频片段
audio, sample_rate = torchaudio.load("samples/ja_prompt.wav")
audio = audio.to(device)
# 对于非英语提示,提供转录以便编码器使用强制对齐
# 而不是内置的 ASR(仅限英语)
prompt_text = "このムキムキのお兄さんがいるし バーだし少し高そうだと思いますよねこのバーの料金設定は良心的でした まあそんなに高くなかったです"
prompt = encoder(audio, text=[prompt_text], sample_rate=sample_rate)
output = model.generate(
prompt=prompt,
text="今日はとても良い天気ですね。散歩に行きましょう。",
)
4、TTS 格局:TADA 在拥挤领域中的定位
让我们 zoom out。2026 年的开源 TTS 空间竞争激烈得荒谬。以下是诚实的图景:
速度狂人:
Kokoro-82M(82M 参数,在 Raspberry Pi 上运行,在 Colab 上 36 倍实时)和 TADA(0.09 RTF,但需要 GPU)。如果延迟是你的神,这些是你的圣殿。但 Kokoro 无法克隆声音,TADA 的音频质量落后于领导者。
质量之王:
IndexTTS2(Bilibili 的带情感控制的工业级系统)、VibeVoice 1.5B(微软的多说话人扩散模型)和 Sesame CSM(对话冠军,具有非凡的非语言线索)。这些听起来最好。毫无疑问。但它们会产生幻觉,更慢,有些许可证受限。
多面手中等生:
F5-TTS(基于扩散,优秀的声音克隆)、Spark TTS(BiCodec 分词器,全面优秀)、Higgs Audio V2(3B 基础,富有表现力)。擅长许多事情,但极少有特别出色的。
边缘/离线玩家:
Piper(C++ 推理,量化,随处运行)和 Coqui TTS(Python 工具包,1100+ 语言)。当你需要在 Raspberry Pi 或 Lambda 函数中运行 TTS 时,这些是你的选择。
专有天花板:
ElevenLabs(81.97% 发音准确率,150ms TTFA,在创意用例中占主导地位)、OpenAI TTS(干净专业,200ms TTFA)和 Cartesia Sonic-3(40-90ms TTFA,支持笑声/呼吸,实时语音智能体生产宠儿)。
TADA 开辟了一个独特的利基市场:可靠的生产主力。不是派对上最美妙的声音,但永远不会说错话。对于 AI 智能体管道、无障碍工具、屏幕阅读器以及任何"模型说错话"不可接受的应用,这是一个有吸引力的卖点。
5、Hacker News 人群的真实想法
像任何其他试图嗅探人们在说什么的极客一样,我查看了 HN 对话,反应很有趣。大多是欢迎的
好评
赞扬是真诚的。0.09 RTF 的数字被称为"疯狂"。MIT 许可证受到赞赏。零幻觉声明被认真对待,因为架构支持它,不仅仅是基准测试。
但总有但是。
一般
音频质量批评是具体和技术性的。愤怒语音样本中的口齿不清。长样本中的声带摩擦,一位评论者将其归因于"对相当烦人的现代美式英语语音模式的忠实合成"(这,公平)。以及所有样本中那种持续的微妙调制,没有人能准确说出但每个人都听到了。
最实际的批评来自一位使用 Cartesia Sonic 构建视频管道的人:
"对于内容创作,真正重要的不是原始速度;而是能否在 50+ 场景中保持一致的的情感表达而不会漂移。"
有效观点。TADA 的文本延续方法意味着没有微调,没有情感控制的指令遵循。你得到的是提示给你的东西。
Mac/CPU 问题被反复提出。一位用户无法在 MPS 上运行它。另一位问是否能在 CPU 上运行。答案,基于架构(Llama 3.2 骨干 + Wav2Vec2 对齐器 + 流匹配解码器):技术上可以在 CPU 上运行,但你会完全失去速度优势。这是为 NVIDIA GPU 构建的。关于 CPU vs GPU 经济学的讨论结果是,嗯,热烈的。老实说,双方都有有效观点,取决于部署环境。我自己还没有尝试过,所以无法评论。
最尖锐的担忧:"我假设这意味着我们不能用它作为 AI 智能体聊天中 TTS 的替代品?" 因为 TADA 目前只支持文本延续(它从提示样本扩展语音)而不是指令遵循 TTS。你不能说*"用愤怒的声音说这段文字。"* 你需要提供一个匹配的文本+语音样本,它从那里继续。对于智能体管道,这是一个有意义的限制。
5、我对它的感觉?
好。明确的好。原因如下。
MIT 许可证
不是"带有限制性许可证阻止商业使用的开放权重"。不是"仅限研究"。MIT。随意使用。构建产品。交付给客户。分叉并改进解码器。TTS 空间一直被技术上"开放"但商业上不可用的模型困扰。Hume AI 选择了真正的开放。
架构贡献
这比模型本身更重要。1:1 文本-声学对齐是一个其他团队会采用的想法。基于 CTC 的强制对齐在 LLM 子词词汇表上是优雅且可复现的。用于联合声学特征和持续时间预测的流匹配头是可以附加到其他架构上的东西。即使你从不直接使用 TADA,这些想法也会出现在下一代每个其他 TTS 系统中。
足够好因素
第三,它扩展了"足够好"的含义。不是每个应用都需要 ElevenLabs 级别的音频质量。屏幕阅读器不需要完美的韵律;它们需要完美的可靠性。自动电话系统不需要情感范围;它们需要零幻觉。TADA 为那些被幻觉问题而非质量问题阻塞的应用打开了部署窗口。
坏消息是最小的。音频质量伪影是真实的但可以修复(Hume AI 自己指出"更强大的解码器"可以缩小差距)。Mac/CPU 限制是 Llama 骨干的功能,不是 TADA 特有的。仅文本延续的限制是一个设计选择,未来版本可以放宽。
6、没人问的真正问题
每个人都在将 TADA 的音频质量与 ElevenLabs 和 IndexTTS2 比较。但这是错误的比较。
正确的比较是:你的生产 TTS 系统本周产生了多少次幻觉?有多少面向客户的音频输出包含幻影词、跳过句子或混乱内容?你的团队花了多少小时构建幻觉检测启发式、拒绝采样管道和重试逻辑?
TADA 说:如果你根本不需要这些呢?
这不是质量论证。这是可靠性论证。在生产系统中,可靠性获胜。每一次。
模型权重在 HuggingFace 上(HumeAI/tada-1b 和 HumeAI/tada-3b-ml)。代码在 GitHub 上(HumeAI/tada)。许可证是 MIT。论文在 arXiv 上(2602.23068)。
如果你正在将语音构建到你的产品中,而幻觉让你夜不能寐,这值得你花一个下午。
原文链接:Hume AI Open Sources TADA: The TTS Model That Can't Hallucinate
汇智网翻译整理,转载请标明出处