gemini 3.1 TTS全部30 种语音实测
我测试了 Google 新版 Gemini 3.1 的全部 30 种语音,下面介绍我的发现。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
我测试了Gemini 3.1 Flash TTS的全部 30 种预置语音,涵盖英语、中文、西班牙语和日语。我测试了从 [whispers] 到 [laughs nervously] 再到 [slowly, with gravity] 的各种音频标签。我还测试了原生多说话人对话系统,它能让两个 AI 语音在没有后期处理的情况下进行自然对话。
以下是我的发现——以及这 30 种语音中你应该为每种使用场景选择哪一种。
1、Gemini 3.1 Flash TTS 到底是什么
Gemini 3.1 Flash TTS 是 Google DeepMind 的专用文本转语音模型,与你用于文本生成的 Gemini 3.1 Pro 和 Flash 模型是分开的。它是一个专用语音引擎,能将文本转换为高保真音频,同时接受两种创意指导:自然语言提示词(描述场景、说话者、情绪)和内联音频标签(直接嵌入文本中的精细控制)。
该模型于 2026 年 4 月 15 日发布,目前可通过 Gemini API、Google AI Studio(有免费额度)、Vertex AI 和 Google Vids 使用。模型 ID 为 gemini-3.1-flash-tts-preview。
关键参数一览:30 种预置语音、70+ 语言及地区变体、原生多说话人对话、200+ 音频标签、所有生成音频带有 SynthID 水印,定价为每百万输入 token $1.00,每百万音频输出 token $20.00(批处理模式 $0.50/$10.00——五折优惠)。
Artificial Analysis 将 Gemini 3.1 Flash TTS 放在了"最具吸引力象限"——高质量语音输出与低单次请求成本的交汇区。对于大规模部署的场景,这个定位比原始 Elo 排名更重要。
2、200+ 音频标签:这才是真正的重头戏
每个 TTS 服务都让你选择语音。有些让你调节速度和音调。Gemini 3.1 Flash TTS 做了根本不同的事情:它让你直接在文本中嵌入舞台指令,模型会像演员阅读剧本一样来解读它们。
这是我测试中的一个真实例子:
[neutral] Hello. This is an automated message from City Airways.
[short pause] Your flight, [slow] C A 4 2 7, has been updated.
[positive] It is now departing at 8:45 AM from Gate B 12.
[fast] Please proceed to the gate immediately, as boarding
will begin in five minutes.
这个单一的提示词生成的音频在六句话中变换了四次语调、节奏和能量。航班号上的 [slow] 标签使其清晰地逐字发音(这对于"CA427"需要毫不含糊的语音播报至关重要)。紧急信息上的 [fast] 标签营造出与人类登机口工作人员相同的效果。
我测试的标签包括:
- 情感:
[happy]、[sad]、[angry]、[amused]、[enthusiasm]、[curiosity]、[determination] - 节奏:
[slow]、[fast]、[short pause]、[long pause] - 风格:
[whispers]、[laughs]、[sigh]、[laughs nervously]、[slowly, with gravity]、[upbeat, fast pace] - 场景:
[neutral]、[positive]、[worried]
关键洞察:标签是自由格式的自然语言。你不限于固定的列表。我尝试了 [speaking like a tired librarian at closing time],模型准确地呈现了那种效果——更安静、更慢、略带不耐烦的语调。Google 确认有超过 200 个已验证标签,但模型能解读官方列表之外的有创意的自然语言标签。
市场上没有其他 TTS API 提供这种级别的内联控制。ElevenLabs 在请求级别有"风格"滑块和"稳定性"控制——你不能在句子中间改变语调。OpenAI 的 TTS-4o 有基本的指令遵循能力,但远达不到 200+ 精细标签的水平。这就是杀手级功能。
3、我测试了全部 30 种语音,以下是前 5 名
Gemini 3.1 Flash TTS 附带 30 种预置语音,每种都有独特的个性。名称取自神话和天文学:Kore、Puck、Charon、Aoede、Zephyr、Fenrir、Enceladus、Achernar 等等。我用相同的三段测试脚本(新闻广播、有声读物场景和客服电话)对每种语音进行了测试,评估了自然度、情感范围和标签响应性。
语音 | 特点 | 最佳用途
------------|-------------------------|---------------------------
Kore | 坚定、自信 | 商业、客服支持
Puck | 活泼、充满活力 | 营销、播客
Aoede | 轻松、自然 | 有声读物、旁白
Charon | 信息丰富、清晰 | 新闻、文档
Zephyr | 明亮、欢快 | 教育、儿童内容
Fenrir | 激昂、动态 | 游戏、娱乐
Enceladus | 平静、权威 | 企业、IVR 系统
Leda | 温暖、对话感 | 聊天机器人、陪伴
Sadachbia | 专业、克制 | 法律、医疗宣读
Vindemiatrix| 戏剧性、表现力强 | 讲故事、戏剧
大多数生产场景我的首选:Kore。 它处理音频标签转换最自然——从 [neutral] 切换到 [urgent] 不会出现我在其他语音中注意到的语调突变。如果你在构建需要活力的产品,Puck 是最好的"个性"语音。Aoede 是长篇旁白最安全的选择——它在 20 分钟以上的时间里不会像更具表现力的语音那样让听众感到疲劳。
我测试中最弱的语音是 Gacrux(即使使用表现力标签也很单调)和 Umbriel(在语言之间切换时节奏不一致)。对于多语言场景,坚持使用 Kore、Aoede 或 Charon——它们最优雅地处理了英语到中文的切换。
4、多说话人对话:原生且无缝
大多数 TTS 系统需要你分别生成每个说话人的音频,然后在后期制作中拼接音频文件。Gemini 3.1 Flash TTS 原生处理这个问题。你编写一个剧本风格的提示词,带说话人标签,模型在一次 API 调用中生成完整的多说话人音频文件。
prompt = """TTS the following conversation between Joe and Jane:
Joe: [enthusiastic] Hey, did you see the quarterly numbers?
Jane: [surprised] Wait, we actually hit the target?
Joe: [laughs] Not just hit it — crushed it by 12 percent.
Jane: [impressed] OK, that calls for coffee. My treat."""
模型为每个说话人分配不同的语音,在整个对话过程中保持一致的角色特征,并独立处理每个说话人的音频标签转换。Jane 的 [surprised] 不会渗透到 Joe 的 [laughs] 中。这是开箱即用的生产级多说话人生成。
对于开发者:多说话人模式使用 MultiSpeakerVoiceConfig 对象,你可以在其中为每个说话人名称分配特定的预置语音。你可以让 Joe 使用 Puck(充满活力),Jane 使用 Kore(自信),模型在整个对话中保持这些语音。
5、真实成本对比
以下是每月生成 10,000 小时音频的生产部署的竞争格局:
提供商 | 每分钟成本 | 每月(1万小时) | Elo 分数
------------------------|--------------|-----------------|----------
Gemini 3.1 Flash TTS | $0.018/分钟 | $10,800 | 1,211
OpenAI TTS-4o-mini | $0.015/分钟 | $9,000 | ~1,100
ElevenLabs v3 | $0.10+/分钟 | $60,000+ | ~1,280
Inworld AI TTS | 可变 | 自定义定价 | 1,236
OpenAI 每分钟略便宜,但缺乏音频标签和多说话人对话功能。ElevenLabs 拥有最高的原始质量(Elo 1,280),但在规模化时成本高 5-6 倍——而且成本差距在更高音量时会进一步拉大。Inworld AI 在一个基准测试中得分最高,但专注于游戏领域,需要自定义企业定价。
Artificial Analysis 的定位说明了真正的情况:Gemini 3.1 Flash TTS 位于"最具吸引力象限"——高质量、低成本。对于大多数生产部署,为了 ElevenLabs 的边际 Elo 优势多付 5 倍的价格,在商业上不合理,尤其是 Google 提供了 ElevenLabs 在任何价格下都没有的 200+ 音频标签。
Google 还为非实时工作负载(如有声读物生成、播客预处理和训练数据创建)提供 50% 的批处理折扣(每百万 token $0.50/$10.00)。按批处理价格,生成 10,000 小时音频降至约 $5,400/月。
6、5 分钟快速上手
安装 Google GenAI SDK:
pip install google-genai
在 aistudio.google.com 获取免费 API 密钥,然后生成你的第一段音频:
from google import genai
from google.genai import types
import wave
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-flash-tts-preview",
contents="""[enthusiastic] Hey developers!
[short pause] Google just launched the most controllable
text to speech model ever built.
[whispers] And it costs less than two cents per minute.""",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name="Kore"
)
)
)
)
)
# Save the audio to a WAV file
audio_data = response.candidates[0].content.parts[0].inline_data.data
with wave.open("output.wav", "wb") as wf:
wf.setnchannels(1)
wf.setsampwidth(2)
wf.setframerate(24000)
wf.writeframes(audio_data)
print("Audio saved to output.wav")
要尝试多说话人对话,将 voice_config 替换为 multi_speaker_voice_config:
response = client.models.generate_content(
model="gemini-3.1-flash-tts-preview",
contents="""TTS the following conversation:
Alex: [curious] So what makes this TTS model different?
Sam: [confident] Two hundred audio tags. Inline. Mid-sentence.
Alex: [impressed] That is actually wild.""",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
types.SpeakerVoiceConfig(
speaker="Alex",
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name="Puck"
)
)
),
types.SpeakerVoiceConfig(
speaker="Sam",
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name="Kore"
)
)
)
]
)
)
)
)
就是这样。两次 API 调用。一次用于带音频标签的单说话人,一次用于多说话人对话。无需拼接,无需后期处理,无需外部工具。
7、你到底应该使用哪种语音?
客服支持 / IVR: Kore(坚定、自信,标签转换处理流畅)或 Enceladus(平静、权威)
有声读物 / 长篇旁白: Aoede(轻松、自然——在长时间会话中不会让听众疲劳)
播客 / 营销: Puck(活泼、充满活力)或 Fenrir(激昂、动态)
新闻 / 文档: Charon(信息丰富、清晰——"NPR 风格的语音")
多语言部署: Kore、Aoede 或 Charon(在 70+ 支持语言中跨语言一致性最好)
游戏 / 娱乐: Fenrir(动态)或 Vindemiatrix(戏剧性、表现力强)
儿童内容 / 教育: Zephyr(明亮、欢快)
8、结束语
Gemini 3.1 Flash TTS 不是纸面上质量最高的 TTS——ElevenLabs 以 69 分的 Elo 优势保持着这个桂冠。但通过盲测偏好测试衡量的质量排名并不能反映可控性,而可控性才是将演示与生产部署区分开来的关键。
200+ 音频标签系统是真正的范式转变。能够在文本中写入 [whispers] 或 [laughs nervously] 或 [speaking like a tired librarian at closing time] 并让模型正确解读,这是其他任何商业 TTS 都不提供的功能。对于需要 AI 语音能够表演而不仅仅是说话的开发者来说,这是第一个真正实现这一点的模型。
按 $0.018/分钟(或批处理模式 $0.009/分钟)的价格计算,除非你特别需要语音克隆(Gemini 3.1 Flash TTS 不支持),否则 ElevenLabs 很难证明其成本的合理性。对于其他所有场景——IVR、有声读物、播客、语音代理、多语言内容、互动叙事——Google 刚刚树立了新的性价比标杆。
该模型现在已在 Google AI Studio 上线,提供免费额度。去测试这 30 种语音,尝试音频标签,构建会说话的东西吧。
原文链接: I Tested All 30 Voices in Google's New Gemini 3.1
汇智网翻译整理,转载请标明出处