MODEL-ZOO

Nano Banana：超越图像生成

Nano 不仅仅是一个图像生成器；它是一个创意工作室，拥有丰富的功能，能够提供全新的工作方式。

Sep 4, 2025 • 6 min read

时不时地，生成式人工智能 (Gen AI) 领域就会出现突破媒介界限的进步。

这些时刻对我来说都是令人惊叹不已的。

第一次是在 2022 年，我第一次看到了 DALL-E 2 的实际运行；同年晚些时候，ChatGPT 发布，也让我再次惊叹不已。谷歌的 NotebookLM 最近也让我惊叹不已。

在每一次这样的案例中，这些先前的进步都引发了新的趋势，带来了意想不到的飞跃。

Google 最新发布的 2.5 版 Image Gen（也称为 Nano Banana）就是其中之一。将 Nano 简单地视为一款提升图像质量的图像生成器是错误的。

Nano 不仅仅是一个图像生成器；它是一个创意工作室，拥有丰富的功能，能够提供全新的工作方式。

每当有新的 AI 模型、应用或工具发布时，我都会问自己：“这个新模型与我目前使用的方法相比，能提供什么新的东西吗？” 如果答案是否定的，那我就不会在意。

但 Nano 确实提供了新功能；

它是如何改变游戏规则的：

1、快速连贯性和精细的图像编辑

由于 Nano 原生于 Gemini 模型，这意味着它是真正的多模态模型，因此它能够很好地理解文本的连贯性。

例如，看看这个提示的详细信息以及 Nano 是如何做到的：

提示：创建一张逼真的照片，照片中一只大笑的黑猩猩骑着独轮车在城市街道上玩耍，同时玩弄四个球，一个球是红色的，另一个是蓝色的，第三和第四个球是黄色的。这只黑猩猩戴着一顶黑色礼帽，穿着一件红黄条纹的夹克，衬衫上写着“猴子生意”。人们看着这只黑猩猩骑着独轮车经过。

但该模型的强大之处不仅在于其连贯性，还在于能够编辑图像中的小细节。例如，如果我想通过将帽子的颜色也改为条纹来编辑图像：

提示：“将礼帽的颜色改为红黄条纹，与夹克的颜色一致”

需要指出的是，详细的图像编辑功能目前还无法完美运行；有时你需要反复多次提示才能正确完成。

但这是 Nano 的首个版本，所以我期待它能够不断改进，甚至有可能达到自然语言成为图像编辑主要形式的程度。

另一项突破是能够以新颖独特的方式组合人物、物体和产品。例如，看看 Travis Davids 在 X 上发布的这张图片，它展示了如何将 13 个物体合并成一张图片：

提示：一位模特摆好姿势，倚靠在一辆粉色宝马上。她穿着以下物品，场景背景为浅灰色。绿色外星人是一个钥匙扣，挂在粉色手提包上。模特肩上还有一只粉色鹦鹉。旁边坐着一只戴着粉色项圈和金色耳机的哈巴狗。

以下是“The Daily AI”在 X 论坛上发布的更多精彩合集

重点是，Nano 是一款 AI 工作室设计师，能够根据多种输入构建构图。这远远超出了简单的即时图像生成。

另一个精彩的用例是，你可以上传自己的照片，然后让 Nano 在不同的图像环境下进行构图。

例如，我把自己添加到了一些不同的电影海报创意中，一个是 AI 西部片，一个是《黑客帝国》衍生剧：

这些都是一次性完成的版本，没有经过任何迭代。不仅细节很棒，而且海报设计也相当不错。

当然，这些用例只是冰山一角，还有许多其他不同的用例，例如室内设计、老照片上色、照片编辑、应用程序设计等等……不胜枚举。

你可以将它作为思维伙伴，为几乎任何事物生成设计，包括应用程序设计。而且既然你已经在 Gemini 中，你还可以让它生成设计代码。真是太棒了。

查看 Jim Clyde Monge 对 Nano 版本的评论文章及其访问方式。

那么，这对 AI 图像生成器意味着什么呢？

这意味着简单的文本到图像生成的时代已经结束。

就像之前的突破一样，我们可以期待图像生成在细节编辑、迭代图像提示、产品植入、构图、文本拼写以及各种创意设计选项等方面有所改进。

图像生成的下一阶段将围绕构图设计展开，并具有随意混搭的能力。任何风格、任何语境、任何输入——即使用于头脑风暴或初稿，可视化也能提供真正的价值。

汇智网翻译整理，转载请标明出处