Nano Banana 终极提示指南

自从去年 Google 宣布 Nano Banana 以来,AI 生成图像与真实图像之间的差距已显著缩小。但要有效使用 "Nano Banana",你必须掌握一种称为提示 的技术。

通常,创建精确、高质量的图像需要不断尝试各种提示。你需要一个真正理解你要求的模型。

Nano Banana 2 或专业版本,是基于 Gemini 3 系列模型构建的。这些模型应用深度推理能力来在生成图像之前完全理解你的提示。因此,Google 团队花了数周时间在每一个他们能想到的用例中测试 Nano Banana 2 和 Nano Banana Pro,以推动它们的极限。

团队整理了本指南,分享他们所学到的确切内容,以及如何基于提示策略获得高质量图像。

1、模型概览

Nano Banana 模型是先进的图像生成和编辑模型,利用现实世界知识和深度推理能力提供精确、丰富的视觉结果。最近,Google 宣布了 Nano Banana 2,它在三个方面表现出色:

  • 更精确的视觉效果: Nano Banana 2 由来自网络搜索的实时信息和图像驱动。这意味着更好的教育工具、本地化营销、旅行应用程序等。
  • 快速、专业级功能: 解锁高级功能后,你可以执行文本渲染、翻译和 2K/4K 升级。现在,创意团队可以构建连贯的叙事、故事板和产品模型。
  • 精确控制: 生成或编辑图像以适应任何项目需求,原生支持 16:9、9:16、2:1 等比例。无论你生成海报、营销模型还是广告,都能获得生动的照明和更丰富的纹理。

2、技术规格

在深入了解提示之前,以下是模型通过 API 和 Vertex AI 可以处理的内容的分解(有关最新详细信息,请始终查看官方 Gemini 3 Pro ImageGemini 3.1 Flash Image 文档):

  • 上下文窗口: Gemini 3.1 Flash Image (Nano Banana 2) 最多支持 131,072 个输入标记,而 Gemini 3 Pro Image (Nano Banana Pro) 最多支持 65,536 个输入标记。两个模型都最多支持 32,768 个输出标记。
  • 分辨率: 内置 1K、2K 和 4K 视觉生成功能。Gemini 3.1 Flash Image 增加了较小的 512px (0.5K) 分辨率。
  • 纵横比: 两个模型都支持 1:1、3:2、2:3、3:4、4:3、4:5、5:4、9:16、16:9 和 21:9。Gemini 3.1 Flash Image Preview 还增加了 1:4、4:1、1:8 和 8:1 纵横比。
  • 图像输入: 你可以在一个提示中混合最多 14 个参考对象图像。支持的 MIME 类型包括 image/png、image/jpeg、image/webp、image/heic 和 image/heif。
  • 文档输入: 你可以输入文本和 pdf 文件。每个文件的最大文件大小为 API 和 Cloud Storage 导入的 50 MB,或通过 Google Cloud 控制台直接上传的 7 MB。* 输出: 两个模型都输出文本和图像。
  • 模型知识库: 两个模型的知识截止日期均为 2025 年 1 月。
  • 实时数据: 两个模型都由来自网络搜索的实时信息驱动。
  • 信任与安全: 所有生成的图像都包含 C2PA 内容凭证和 SynthID 水印。

3、有效提示的最佳实践

当谈到有效提示时,有几种方法可以确保你获得的视觉效果就是你要求的视觉效果。这里有一些指导原则:

  • 具体化: 提供主题、照明和构图的具体细节。
  • 使用正面表述: 描述你想要的,而不是你不想要的(例如,"空街道" 而不是 "没有车")。
  • 控制相机: 使用摄影和电影术语,如"低角度"和"鸟瞰图"。
  • 迭代: 通过对话式的方式使用后续提示细化图像。

关键是用一个强有力的动词开始提示,告诉模型你想要执行的主要操作。

4、五大提示框架

4.1 图像生成

生成图像时,你的提示结构完全取决于你是使用参考图像还是仅依赖文本。

不带参考的文本到图像生成

当从空白画布开始时,你就是导演。简单的关键词列表是不够的;你需要叙述性地描述场景。

公式: [主题] + [动作] + [位置/背景] + [构图] + [风格]

示例提示: [主题] 一位引人注目的时尚模特穿着定制的棕色连衣裙,时尚的靴子,拿着一个结构化的手提包。[动作] 摆出自信、雕像般的姿势,微微转身。[位置/背景] 一个无缝的深樱桃红色摄影棚背景。[构图] 中全景,居中框架。[风格] 时尚杂志风格社论,使用中画幅模拟胶片拍摄,明显的颗粒感,高饱和度,电影照明效果。

生成的图像:

多模态生成(带参考的生成)

Gemini 允许你组合多个参考图像来指导最终输出。这对于保持角色一致性或将特定产品合并到新环境中非常完美。

公式: [参考图像] + [关系指令] + [新场景]

示例提示: 使用附带的餐巾纸草图作为结构,附带的织物样本作为纹理 [参考],将其转换为高保真的 3D 扶手椅渲染 [关系]。将其放置在阳光充足、极简主义的客厅中 [新场景]。

生成的图像:

4.2 图像编辑

编辑需要与生成不同的思维方式。你已经有了一个基础图像;你的提示需要专注于什么在改变,什么保持不变。

对话式编辑(不带新参考)

当你生成图像并希望以对话方式对其进行微调时:

  • 语义遮罩(inpainting): 你可以通过文本定义遮罩来编辑图像的特定部分,而保持其余部分不变。
  • 提示技巧: 明确说明要保持不变的内容。

示例提示: 从照片中移除那个人。

生成的图像

构图和风格迁移(带新参考)

将新图像引入提示以更改现有图像:

  • 添加元素: 上传基础图像和对象图像,并告诉模型组合它们。
  • 风格迁移: 上传照片并要求模型以不同的艺术风格重新创建其确切内容,例如将现代城市街道的照片转换为梵高风格的绘画。

构图

风格迁移

4.3 来自网络搜索的实时信息

Gemini 图像模型可以主动搜索网络以基于实时信息生成图像。

提示如何变化: 不再描述虚构场景,而是指示模型检索现实世界数据,然后指定如何对其进行可视化。

公式: [来源/搜索请求] + [分析任务] + [视觉翻译]

示例提示: [搜索旧金山的当前天气和日期] + [分析上,使用此数据修改场景(例如,如果下雨,使其看起来灰暗和下雨)] + [在一个真实的现代智能手机 UI 内嵌入一个杯中城市概念的可视化。

生成的图像:

4.4 文本渲染和本地化

Nano Banana 2 和 Nano Banana Pro 擅长渲染清晰、易读的文本,用于有影响力的海报、图表和产品模型。此外,它支持超过 10 种语言的最新多语言文本生成。

要获得最佳的排版结果,请遵循以下规则:

  • 使用引号: 将你想要的词放在引号中(例如,"生日快乐"或"城市探索者")。* 选择字体: 描述排版风格或字体名称。提示为"粗体、白色、无衬线字体"或"Century Gothic 12px 字体"。
  • 翻译和本地化: 用一种语言编写提示,并指定文本输出的目标语言。
  • 文本优先技巧: 当为图像生成文本时,Gemini 图像模型效果最好,如果你首先与它对话以生成文本概念,然后要求生成带有该文本的图像。

提示: 一张高端、有光泽的商业美容照片,展示一个时尚、极简的裸色面部保湿霜罐,放置在温暖的摄影棚背景上。照明柔和而辐射。在产品旁边,渲染三行文本,具有以下确切样式:对于顶行,单词"GLOW"使用流畅、优雅的 Brush Script 字体。对于中间行,文本"50% OFF"使用粗重、块状的 Impact 字体。对于底行,文本"Your First Order"使用纤细、极简的 Century Gothic 字体。"然后将文本翻译成韩语和阿拉伯语。

生成的图像:

提示: 一个排版海报,纯黑色背景,粗体字母拼写"New York",填满框架的中心。文本充当剪裁窗口。纽约天线的照片仅在字母形状内可见。

生成的图像:

4.5 像创意总监一样提示

要将你的结果从好提升到令人惊叹,你需要停止输入关键词,开始指导场景。Gemini 图像模型提供工作室质量的控制。以下是如何像创意总监一样提示:

1. 设计你的照明

确切地告诉模型场景是如何照明的。

  • 工作室设置: 要求三点柔光箱设置以均匀照明产品。
  • 戏剧效果: 提示为"明暗对比照明,具有强烈的高对比度"或"黄金时刻背光创造长阴影"。

2. 选择你的相机、镜头和对焦

使用特定的硬件和摄影术语来控制你的镜头的深度、失真和透视。

  • 硬件: 指定确切的相机类型以更改图像的视觉 DNA。要求在 GoPro 上拍摄以获得沉浸式、扭曲的动作感觉,使用 Fujifilm 相机以获得真实的色彩科学,或使用廉价的一次性相机以获得原始、怀旧的闪光美学。
  • 镜头: 通过明确要求"低角度拍摄,具有浅景深 (f/1.8)"来强制透视。如果你需要显示巨大的规模,要求"广角镜头"。对于复杂的细节,指定"微距镜头"。

3. 定义色彩分级和胶片

最终图像的纹理和色彩设定情感基调。

  • 如果你想要怀旧或粗犷的氛围,告诉模型"就像在 1980 年代彩色胶片上一样,略带颗粒感"地渲染图像。
  • 对于现代、情绪化的美学,要求"电影色彩分级,具有柔和的青色色调"。

4. 强调材料性和纹理

生成标志、产品或角色时,定义它们的物理构成。不要只要求西装夹克;要求"海军蓝粗花呢"。而不是"盔甲",描述"华丽的精灵板甲,蚀刻有银叶图案"。如果你正在设计模型,指定表面,如"极简陶瓷咖啡杯"。

5、结束语

Nano Banana Pro 和 Nano Banana 2 旨在与我们的其他生成创意模型无缝协作。

  • Nano Banana + Gemini: Gemini 3 可以帮助你创建提示并提供创意方向。
  • Nano Banana + Veo: 使用 Nano Banana 创建关键帧以指导动画,然后使用 Veo 在它们之间生成视频。查看我们的 Veo 3.1 提示指南在这里
  • Nano Banana + Veo + Lyria: 生成你的项目的视觉效果,然后使用 Lyria 添加自定义 AI 音轨。在此处了解有关 Lyria 的更多信息在这里

原文链接: Nano Banana — The Ultimate Prompting Guide

汇智网翻译整理,转载请标明出处