Nano Banana:超越图像生成
Nano 不仅仅是一个图像生成器;它是一个创意工作室,拥有丰富的功能,能够提供全新的工作方式。

时不时地,生成式人工智能 (Gen AI) 领域就会出现突破媒介界限的进步。
这些时刻对我来说都是令人惊叹不已的。
第一次是在 2022 年,我第一次看到了 DALL-E 2 的实际运行;同年晚些时候,ChatGPT 发布,也让我再次惊叹不已。谷歌的 NotebookLM 最近也让我惊叹不已。
在每一次这样的案例中,这些先前的进步都引发了新的趋势,带来了意想不到的飞跃。
Google 最新发布的 2.5 版 Image Gen(也称为 Nano Banana)就是其中之一。将 Nano 简单地视为一款提升图像质量的图像生成器是错误的。
Nano 不仅仅是一个图像生成器;它是一个创意工作室,拥有丰富的功能,能够提供全新的工作方式。
每当有新的 AI 模型、应用或工具发布时,我都会问自己:“这个新模型与我目前使用的方法相比,能提供什么新的东西吗?” 如果答案是否定的,那我就不会在意。
但 Nano 确实提供了新功能;
它是如何改变游戏规则的:
1、快速连贯性和精细的图像编辑
由于 Nano 原生于 Gemini 模型,这意味着它是真正的多模态模型,因此它能够很好地理解文本的连贯性。
例如,看看这个提示的详细信息以及 Nano 是如何做到的:
提示:创建一张逼真的照片,照片中一只大笑的黑猩猩骑着独轮车在城市街道上玩耍,同时玩弄四个球,一个球是红色的,另一个是蓝色的,第三和第四个球是黄色的。这只黑猩猩戴着一顶黑色礼帽,穿着一件红黄条纹的夹克,衬衫上写着“猴子生意”。人们看着这只黑猩猩骑着独轮车经过。

但该模型的强大之处不仅在于其连贯性,还在于能够编辑图像中的小细节。例如,如果我想通过将帽子的颜色也改为条纹来编辑图像:
提示:“将礼帽的颜色改为红黄条纹,与夹克的颜色一致”

需要指出的是,详细的图像编辑功能目前还无法完美运行;有时你需要反复多次提示才能正确完成。
但这是 Nano 的首个版本,所以我期待它能够不断改进,甚至有可能达到自然语言成为图像编辑主要形式的程度。
2、产品设计与构图
另一项突破是能够以新颖独特的方式组合人物、物体和产品。例如,看看 Travis Davids 在 X 上发布的这张图片,它展示了如何将 13 个物体合并成一张图片:
提示:一位模特摆好姿势,倚靠在一辆粉色宝马上。她穿着以下物品,场景背景为浅灰色。绿色外星人是一个钥匙扣,挂在粉色手提包上。模特肩上还有一只粉色鹦鹉。旁边坐着一只戴着粉色项圈和金色耳机的哈巴狗。

以下是“The Daily AI”在 X 论坛上发布的更多精彩合集

重点是,Nano 是一款 AI 工作室设计师,能够根据多种输入构建构图。这远远超出了简单的即时图像生成。
3、人物摆放
另一个精彩的用例是,你可以上传自己的照片,然后让 Nano 在不同的图像环境下进行构图。
例如,我把自己添加到了一些不同的电影海报创意中,一个是 AI 西部片,一个是《黑客帝国》衍生剧:

这些都是一次性完成的版本,没有经过任何迭代。不仅细节很棒,而且海报设计也相当不错。
当然,这些用例只是冰山一角,还有许多其他不同的用例,例如室内设计、老照片上色、照片编辑、应用程序设计等等……不胜枚举。
你可以将它作为思维伙伴,为几乎任何事物生成设计,包括应用程序设计。而且既然你已经在 Gemini 中,你还可以让它生成设计代码。真是太棒了。
查看 Jim Clyde Monge 对 Nano 版本的评论文章及其访问方式。
4、图像生成的下一阶段
那么,这对 AI 图像生成器意味着什么呢?
这意味着简单的文本到图像生成的时代已经结束。
就像之前的突破一样,我们可以期待图像生成在细节编辑、迭代图像提示、产品植入、构图、文本拼写以及各种创意设计选项等方面有所改进。
图像生成的下一阶段将围绕构图设计展开,并具有随意混搭的能力。任何风格、任何语境、任何输入——即使用于头脑风暴或初稿,可视化也能提供真正的价值。
原文链接:Beyond the Image: Why Nano Banana is a New Kind of AI
汇智网翻译整理,转载请标明出处
