Gemini 2.5 Flash Image
Google悄然发布了Gemini 2.5 Flash Image(之前被称为Nano Banana),但这是目前最强大且可控的模型之一。它在架构论文中并不显眼,也不会把扩散数学扔到你脸上。它只做一件事:你输入你想看到的内容,它生成的图像不会看起来像一场糟糕的迷幻药之旅。
这可能会在几天内让Adobe Photoshop过时。
大多数AI图像模型要么太抽象,要么太笨拙。Gemini 2.5处于一个平衡点,你可以要求“一位穿着折纸红白几何连衣裙的女性站在冰川旁”,并得到一种感觉是经过精心设计的图像,而不是猜测了7个词中的3个然后在其余部分上绘画。
1、实际有效的关键用例
- 角色一致性
你可以在不同的提示中重复使用同一个角色。所以如果你要求某人成为老师、雕塑家、护士和面包师,Gemini会记住她的脸。虽然不完美,但比以前的版本明显更稳定。 - 提示编辑
说“去掉头盔”或“让她穿一件格子衬衫”或“把这个鸟变成红色带有祖母绿点缀”。这些编辑通常有效。背景替换、服装更换、姿势调整,它可以处理这些而无需像从头开始一样重新生成整个图像。 - 多图融合
将最多3张图像合并成一个场景。这不仅仅是拼接,它会融合光照、纹理和物体比例。你可以放入两张随机照片并说“把游泳者放在莲花花中”,它会尝试创造一种可信的效果,而不是仅仅剪切和粘贴像素。 - 叙事生成
你可以创建8或12部分的图像序列来讲述一个故事。黑色电影侦探、超级英雄史诗、1960年代的摄影棚戏剧,任你选择。图像中没有文字,只是纯粹的视觉叙事。这不是噱头。这些图像确实遵循一个叙事弧线并保持视觉身份。 - 风格转移+设计混搭
室内设计、时尚、80年代未来主义、麦片盒卡通——你可以加入其他年代或领域的美学,Gemini会尝试保留那种感觉。它不只是堆叠滤镜。几何形状、纹理、材料,这些也会变化。 - 细粒度编辑
这不是Stable Diffusion,一个错误的词就会毁掉你的提示。你可以逐步改进:
- “现在让它下雪。”
- “加一个加油站标志。”
- “去掉窗帘。”
- “修复灯光。”
这种对话式的来回感觉更像是一个Photoshop学徒,而不是一个生成器。
2、内部结构
Google并没有发布论文、权重或内部工作细节。但它确实是多模态的,你可以上传一张图片并给出文本指令来修改它。它支持上下文传递。而且延迟较低,与DALL·E 3相比,在大多数编辑上更快。
3、基准测试
他们在LMArena上以“nano-banana”的代号进行了测试。这个名字很滑稽,但结果很严肃。它在保真度和速度方面处于较高水平,尽管在每个基准测试中都不是最先进的。Google似乎更关注可控性和安全性,而不是最大化现实感。
4、局限性
- 小脸和文字仍然会出问题。Gemini无法拼写。微小的面部细节经常变得模糊或奇怪。
- 角色漂移仍然会发生,尽管比Imagen或早期的Gemini版本少。
- 过度打磨:有时它会过度平滑细节,尤其是在粗糙或复古风格中。看起来像是经过修图处理。
5、安全层
所有图像都带有SynthID,这是一种嵌入像素中的不可见水印。因此,Google在追踪。它还会过滤有害的提示,并进行内容安全测试,特别是涉及儿童和真实性的内容。你不能完全突破它进入混乱模式。
点击这里尝试这个模型。
6、结束语
Gemini 2.5 Flash Image并不是试图成为MidJourney或追赶开源模型。它的目标是日常创作者,他们想要紧密的控制,不能每次模型忘记夹克的颜色时都重新绘制12帧。
原文链接:Google Gemini 2.5 Flash Image, Nano Banana released : Bye Bye Photoshop
汇智网翻译整理,转载请标明出处