Maya1:带情感控制的TTS
大多数语音AI听起来像2011年的昂贵GPS,清晰到可以理解,但情感平淡。Maya1不是这样。
它是首批开源语音模型之一,可以根据提示实际设计您的TTS语音。
让我们剖析它与众不同的地方
1、核心理念:文本 → 情感 → 声音
Maya1不仅仅是文本转语音。它是语音设计。你不会从语音库中选择一个语音。你会描述一个语音。
例如:
<description="40岁女性,温暖的语气,缓慢的节奏,对话式">
然后它会实时构建这个语音。
大多数商业系统如ElevenLabs或OpenAI TTS依赖于预训练的语音,固定的“演员”来朗读你的文本。Maya1让你通过自然语言描述创建新的语音。无需微调,无需数据收集,无需滑块或参数名称。
2、架构:用于声音的3B参数Llama
在内部,Maya1是一个仅解码器的Transformer,类似于Llama,但它不是生成文本标记,而是从称为SNAC的神经编解码器中预测音频标记。
这就是效率的来源。传统的语音模型生成原始波形,每秒数千个样本。Maya1生成紧凑的SNAC标记,每帧音频7个标记,然后解码器将其重建为24 kHz音频。
这使得它实时运行,我们说的是子100毫秒延迟,同时在单个GPU(A100、H100甚至4090)上运行。序列长度大大缩短。更少的标记=更少的内存,更快的推理。
SNAC本身运行在约0.98 kbps,这听起来令人难以置信地低,但它是一个分层编解码器:多个尺度(≈12/23/47 Hz)捕捉精细纹理和缓慢节奏,因此感觉流畅,而不是机械。
3、内联情感控制
Maya1将情感理解为语言的一部分,而不是元数据。
例子:
“我简直不敢相信它 <laugh> 最终成功了。”
<laugh>标签不是象征性的。它实际上改变了波形——音高提升,呼吸声,瞬态时间。你可以在文本中的任何位置插入<sigh>、<whisper>、<cry>、<angry>、<giggle>、<gasp>。
这种控制是局部且可组合的,意味着你可以在句子中间切换语气。不需要为不同的情感生成单独的片段。在后台,Maya1的微调数据集每个样本都有20多个情感标签,因此它学会了每个情感的真实声学模式。
4、训练和数据流程
训练设置不太引人注目,但正是它使输出稳定。
两个阶段:
a) 预训练
互联网规模的英语语音语料库。目标是声学覆盖,而不是完美。教模型真实语音如何流动,音节如何相互渗透。
b) 微调
精选的录音室级录音。每个片段都有:
- 人工验证的描述(语音年龄、语气、口音)
- 情感标签
- 口音变化(美式、英式、中东式等)
- 角色变化(反派、主持人、旁白)
所有内容都被无情地预处理:24 kHz重采样,LUFS标准化(-23 LUFS),使用VAD进行静音修剪,通过蒙特利尔强制对齐器进行短语级对齐,MinHash-LSH用于文本去重,Chromaprint用于音频去重。每一秒的数据都在训练前被SNAC编码,所以模型从未直接看到波形,只看到它们的紧凑表示。这就是为什么它可以实时流媒体并且仍然听起来自然。
5、实际运行的流媒体
大多数TTS系统声称是实时的,但在你听到任何内容之前,它们会缓冲半句话。Maya1之所以真正低延迟,是因为它的SNAC编解码器和vLLM集成。
- vLLM 通过自动前缀缓存(APC) 快速推理,因此重复相同的语音描述不会重新处理整个上下文。
- SNAC保持带宽极小。
- WebAudio集成允许浏览器中无缝播放。
结果: 你可以拥有一个实时语音助手,立即响应,同时听起来充满情感。
6、开源与商业用途
Maya1根据Apache 2.0许可证发布,因此您可以:
- 在生产中使用它。
- 修改它。
- 销售基于它的产品。
没有按秒计费。没有封闭的推理API。
它托管在Hugging Face上(maya-research/maya1),并与PyTorch和transformers库直接集成。
7、更大的转变
Maya1表明语音AI不必被封闭的API所限制。它显示你可以达到生产质量,24 kHz,情感丰富,实时运行,使用开放模型。
技术成就不仅仅是编解码器或模型大小。它是控制界面。输入<cry>并听到你的模型真的哭泣是一种奇怪的魔法。不是深度学习的魔法,而是工程精度。
原文链接:Maya1 : 1st AI Voice Design TTS is here !!
汇智网翻译整理,转载请标明出处