Nano Banana:超越图像生成

Nano 不仅仅是一个图像生成器;它是一个创意工作室,拥有丰富的功能,能够提供全新的工作方式。

Nano Banana:超越图像生成

时不时地,生成式人工智能 (Gen AI) 领域就会出现突破媒介界限的进步。

这些时刻对我来说都是令人惊叹不已的。

第一次是在 2022 年,我第一次看到了 DALL-E 2 的实际运行;同年晚些时候,ChatGPT 发布,也让我再次惊叹不已。谷歌的 NotebookLM 最近也让我惊叹不已。

在每一次这样的案例中,这些先前的进步都引发了新的趋势,带来了意想不到的飞跃。

Google 最新发布的 2.5 版 Image Gen(也称为 Nano Banana)就是其中之一。将 Nano 简单地视为一款提升图像质量的图像生成器是错误的。

Nano 不仅仅是一个图像生成器;它是一个创意工作室,拥有丰富的功能,能够提供全新的工作方式。

每当有新的 AI 模型、应用或工具发布时,我都会问自己:“这个新模型与我目前使用的方法相比,能提供什么新的东西吗?” 如果答案是否定的,那我就不会在意。

但 Nano 确实提供了新功能;

它是如何改变游戏规则的:

1、快速连贯性和精细的图像编辑

由于 Nano 原生于 Gemini 模型,这意味着它是真正的多模态模型,因此它能够很好地理解文本的连贯性。

例如,看看这个提示的详细信息以及 Nano 是如何做到的:

提示:创建一张逼真的照片,照片中一只大笑的黑猩猩骑着独轮车在城市街道上玩耍,同时玩弄四个球,一个球是红色的,另一个是蓝色的,第三和第四个球是黄色的。这只黑猩猩戴着一顶黑色礼帽,穿着一件红黄条纹的夹克,衬衫上写着“猴子生意”。人们看着这只黑猩猩骑着独轮车经过。


但该模型的强大之处不仅在于其连贯性,还在于能够编辑图像中的小细节。例如,如果我想通过将帽子的颜色也改为条纹来编辑图像:

提示:“将礼帽的颜色改为红黄条纹,与夹克的颜色一致”

需要指出的是,详细的图像编辑功能目前还无法完美运行;有时你需要反复多次提示才能正确完成。

但这是 Nano 的首个版本,所以我期待它能够不断改进,甚至有可能达到自然语言成为图像编辑主要形式的程度。

2、产品设计与构图

另一项突破是能够以新颖独特的方式组合人物、物体和产品。例如,看看 Travis Davids 在 X 上发布的这张图片,它展示了如何将 13 个物体合并成一张图片:

提示:一位模特摆好姿势,倚靠在一辆粉色宝马上。她穿着以下物品,场景背景为浅灰色。绿色外星人是一个钥匙扣,挂在粉色手提包上。模特肩上还有一只粉色鹦鹉。旁边坐着一只戴着粉色项圈和金色耳机的哈巴狗。

以下是“The Daily AI”在 X 论坛上发布的更多精彩合集

重点是,Nano 是一款 AI 工作室设计师,能够根据多种输入构建构图。这远远超出了简单的即时图像生成。

3、人物摆放

另一个精彩的用例是,你可以上传自己的照片,然后让 Nano 在不同的图像环境下进行构图。

例如,我把自己添加到了一些不同的电影海报创意中,一个是 AI 西部片,一个是《黑客帝国》衍生剧:

这些都是一次性完成的版本,没有经过任何迭代。不仅细节很棒,而且海报设计也相当不错。

当然,这些用例只是冰山一角,还有许多其他不同的用例,例如室内设计、老照片上色、照片编辑、应用程序设计等等……不胜枚举。

你可以将它作为思维伙伴,为几乎任何事物生成设计,包括应用程序设计。而且既然你已经在 Gemini 中,你还可以让它生成设计代码。真是太棒了。

查看 Jim Clyde Monge 对 Nano 版本的评论文章及其访问方式。

4、图像生成的下一阶段

那么,这对 AI 图像生成器意味着什么呢?

这意味着简单的文本到图像生成的时代已经结束。

就像之前的突破一样,我们可以期待图像生成在细节编辑、迭代图像提示、产品植入、构图、文本拼写以及各种创意设计选项等方面有所改进。

图像生成的下一阶段将围绕构图设计展开,并具有随意混搭的能力。任何风格、任何语境、任何输入——即使用于头脑风暴或初稿,可视化也能提供真正的价值。


原文链接:Beyond the Image: Why Nano Banana is a New Kind of AI

汇智网翻译整理,转载请标明出处