Nano Banana可以做的5件事
两周前,我们推出了Nano Banana(又名Gemini 2.5 Flash Image),它迅速席卷了全球。截至9月底,仅在Gemini应用中就已经编辑了超过5亿张图片,其他平台上还有数亿张。这个模型擅长针对性的编辑,可以用于一些非常酷的用例。
在这篇博客中,我们将探讨5个简单的想法,展示你如何立即开始使用Nano Banana来解决人们实际面临的问题。我们将使用AI Studio,这是完全免费的,以及Gemini API。
1、室内设计和编辑
我个人认为这是最酷的用例之一。我一直很难想象房间中的可能性,但这个模型让这变得非常容易。在这个例子中,你可以在AI Studio中跟随,我们取一个产品图片加上一个场景,并让用户将产品的图片拖入场景中,让Nano Banana模型将它们融合成一张图片。
如果你想看到使用的提示,这并不是那么复杂,你可以点击“代码”选项卡,然后进入“geminiService.ts”,滚动到第300行。这是一个很好的例子,展示了Gemini的原生空间理解能力,这是其他任何图像模型都没有的。
如果你想在Google AI Studio中对这个例子进行扩展,只需使用左侧的聊天栏提示你想要的编辑,模型会重新构建应用程序并实现该体验(这将适用于我们讨论的其他所有例子)!
2、角色一致性编辑
到目前为止,我认为这是最令人惊叹的用例,主要是因为你可以轻松上传自己的照片并看到它的效果。但是,Nano Banana模型在角色一致性方面表现得非常好,这意味着你可以进行有针对性的编辑而不扭曲原始角色的关键特征。我们在Google AI Studio中制作了一个名为“past forward”的免费示例,你可以可视化自己过去几十年的样子,这很有趣。
这种世界级的角色一致性应用是无限的。我已经看到一些应用已经病毒式传播,例如帮助人们可视化不同发型的效果。就像我之前展示的那样,Google AI Studio中这个体验的酷之处在于我们可以实时构建它,让我尝试一下这个例子,并使用提示“好的,现在用我们在这里的过去前进的想法,帮我可视化8种不同的发型风格,考虑常见的男女发型”。这大约需要90秒(我在写这篇博客的同时实时进行),希望一切都能顺利并取得不错的效果!
哦,哇,这几乎就是我想要的(虽然不确定这些风格中有哪一个打动我)。构建这些类型产品的复杂性继续下降,看到这一点真是太棒了!你现在离一个好点子只差一个提示。
3、创意编辑
当我看到这个例子时,我立刻去拍了一张我童年的家的照片,并发给了我的父母,他们的反应非常积极,他们很喜欢。模型捕捉不同风格行为的能力,比如水彩画,在保留原始图片DNA的同时(那是我的家,现在变成了一种AI衍生品)是非常令人印象深刻的。
在这个例子中,我们使用Google地图API来捕捉一个地点的卫星数据,并将图像编辑为水彩画风格。如果你想自己尝试,可以在Google AI Studio中尝试这个,这非常有趣!我也想象着可以用类似的东西创造很多酷炫且独特的商业机会(让你通过卫星图像追溯某条路径,并用这些图像做些创造性的事情)。
4、虚拟“试穿”体验
当有人进行服装购物时,最大的问题之一是“这件衣服穿在我身上怎么样”。在过去十年里,有大量的投资和创新试图弥合这一差距。有了Nano Banana,现在“一切就绪”。你可以拿一张自己的照片和一件你想试穿的衣服,简单地将两者融合在一起。从技术角度来看,这与我上面展示的第一个关于AI房屋改造的例子几乎是相同的设置。
我想包括这个例子的原因是它具有广泛的应用性。每个销售任何实物产品的人应该使用这种设置来展示产品在不同场景下的效果。你可以尝试我们创建的试穿示例应用。你也可以想象,你最终会有一个人类AI化身,它可以像扫描你的电子邮件一样,向你展示你家中所有的个人衣物,这将是一个很棒的应用程序:)!
5、视频生成
我将要谈论的最后一个用例(尽管还有数百个)是围绕视频生成的,特别是Veo 3(我们刚刚将价格降低了约50%)。目前视频生成的一个主要挑战是AI模型生成的视频只有8秒。你需要将多个8秒的视频拼接在一起才能创建有用的内容。此外,最常见的失败模式是8秒视频之间的角色一致性不够好,以一种微妙的方式改变,破坏了更长的视频。然而,借助Nano Banana,你可以依靠模型的角色一致性优势,确保你为每段视频都有一个好的起始帧。
在上面的例子中,我们使用了tldraw的画布,它允许你连接不同的工作流程并进行视觉上的AI探索,包括使用我们的模型如Nano Banana和Veo 3。你可以在Google AI Studio中免费尝试这个例子(但请注意,Veo需要付费的API密钥)。
tldraw画布非常强大,你可以组合几乎任何东西,但如果你从未使用过它,理解其运作方式可能需要一点时间。对我有帮助的是,我将一张图片放入主聊天UI中,选择输入字段的下拉菜单,然后根据我提供的图片请求目标编辑。
6、结束语
总体而言,用Nano Banana可以构建很多东西。我已经看到数千家新公司围绕这些简单的想法涌现出来,甚至有些公司正在追求你能想象到的最雄心勃勃的AI图像问题。对
我来说,这之所以如此有趣,是因为能够在AI Studio中轻松地编写代码。当然,我因为我在AI Studio工作而有所偏见,但能够与新的前沿AI能力一起玩或构建应用程序,并在约90秒内免费运行起来,这是前所未有的。看到民主化访问以构建这项技术的趋势真是太棒了
原文链接:5 things to build with Google’s new Nano Banana image editing & generation model
汇智网翻译整理,转载请标明出处