Gemini 2.5 Flash Image

Google悄然发布了Gemini 2.5 Flash Image（之前被称为Nano Banana），但这是目前最强大且可控的模型之一。它在架构论文中并不显眼，也不会把扩散数学扔到你脸上。它只做一件事：你输入你想看到的内容，它生成的图像不会看起来像一场糟糕的迷幻药之旅。

这可能会在几天内让Adobe Photoshop过时。

大多数AI图像模型要么太抽象，要么太笨拙。Gemini 2.5处于一个平衡点，你可以要求“一位穿着折纸红白几何连衣裙的女性站在冰川旁”，并得到一种感觉是经过精心设计的图像，而不是猜测了7个词中的3个然后在其余部分上绘画。

1、实际有效的关键用例

角色一致性
你可以在不同的提示中重复使用同一个角色。所以如果你要求某人成为老师、雕塑家、护士和面包师，Gemini会记住她的脸。虽然不完美，但比以前的版本明显更稳定。
提示编辑
说“去掉头盔”或“让她穿一件格子衬衫”或“把这个鸟变成红色带有祖母绿点缀”。这些编辑通常有效。背景替换、服装更换、姿势调整，它可以处理这些而无需像从头开始一样重新生成整个图像。
多图融合
将最多3张图像合并成一个场景。这不仅仅是拼接，它会融合光照、纹理和物体比例。你可以放入两张随机照片并说“把游泳者放在莲花花中”，它会尝试创造一种可信的效果，而不是仅仅剪切和粘贴像素。
叙事生成
你可以创建8或12部分的图像序列来讲述一个故事。黑色电影侦探、超级英雄史诗、1960年代的摄影棚戏剧，任你选择。图像中没有文字，只是纯粹的视觉叙事。这不是噱头。这些图像确实遵循一个叙事弧线并保持视觉身份。
风格转移+设计混搭
室内设计、时尚、80年代未来主义、麦片盒卡通——你可以加入其他年代或领域的美学，Gemini会尝试保留那种感觉。它不只是堆叠滤镜。几何形状、纹理、材料，这些也会变化。
细粒度编辑
这不是Stable Diffusion，一个错误的词就会毁掉你的提示。你可以逐步改进：

这种对话式的来回感觉更像是一个Photoshop学徒，而不是一个生成器。

Google并没有发布论文、权重或内部工作细节。但它确实是多模态的，你可以上传一张图片并给出文本指令来修改它。它支持上下文传递。而且延迟较低，与DALL·E 3相比，在大多数编辑上更快。

他们在LMArena上以“nano-banana”的代号进行了测试。这个名字很滑稽，但结果很严肃。它在保真度和速度方面处于较高水平，尽管在每个基准测试中都不是最先进的。Google似乎更关注可控性和安全性，而不是最大化现实感。

所有图像都带有SynthID，这是一种嵌入像素中的不可见水印。因此，Google在追踪。它还会过滤有害的提示，并进行内容安全测试，特别是涉及儿童和真实性的内容。你不能完全突破它进入混乱模式。

点击这里尝试这个模型。

Gemini 2.5 Flash Image并不是试图成为MidJourney或追赶开源模型。它的目标是日常创作者，他们想要紧密的控制，不能每次模型忘记夹克的颜色时都重新绘制12帧。

汇智网翻译整理，转载请标明出处