Nano Banana 相机控制
今天,我想分享一个我一直在测试的工作流程,它感觉像魔法一样:从单张平面图像创建新的相机角度。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
我们都经历过这种情况:拍摄结束后,进入编辑阶段,你意识到完美的镜头正是你没有拍的那个。你需要鸟瞰视角,或者仅仅是一个轻微的旋转来让构图更出色,但那个瞬间已经过去了。
直到最近,事情就是这样。你只能接受已有的照片。
但我们现在正生活在一个创意专业人士的疯狂时代。新一波AI工具不仅仅是从零开始生成图像;它还关乎重新混合和完善我们已经捕捉到的现实。今天,我想分享一个我一直在测试的工作流程,它感觉像魔法一样:从单张平面图像创建新的相机角度。
我让两个最流行的模型互相较量:Nano Banana Pro和Qwen Image Edit。
1、测试设置:Weavy节点
在这次测试中,我在Weavy(又名Figma Weave)中使用了基于节点的工作流程。如果你还没有玩过基于节点的编辑,它就像是为你的图像处理管线构建一个可视化配方。我设置了两条并行路径:
- Nano Banana Pro:Google最新的多模态强大力量。
- Qwen Image Edit:一个基于Stable Diffusion的流行模型。
我给它们两张具有挑战性的人像——一位穿着Aviator Nation连帽衫的女性和另一位紫色头发的女孩——并要求两个模型旋转主体,给我鸟瞰视角和45度旋转。
提示很简单(在Gemini应用中效果很好):
"创建[@]img1中女性的新角度,就好像她的整个身体旋转了45度一样。使用与原始图像相同的构图。"
如果你没有Weavy、Higgsfield等账号,上面相同的提示在免费的Gemini移动或网页应用中也有效。
但是,有两个陷阱:首先,它会有水印。其次,如果你第一次没有得到正确结果,重新生成会更困难——在这种情况下,最好开始一个新对话,这样它不会被现有图像卡住。
2、挑战者:Qwen Image Edit
让我们从Qwen开始。理论上,它是一个扎实的工具,对于很多业余应用来说,它完全够用。但当你用专业眼光审视时,缺陷就开始显现了。
颜色/对比度问题:我立刻注意到Qwen在压暗暗部的同时把对比度调得太高。在穿着连帽衫的女性照片中,颜色发生了显著变化。它看起来很"鲜艳",但不准确。对于专业工作流程来说,色彩保真度是一切。我不希望我的工具为我调色。

"Stable Diffusion"外观:你知道我说的是什么样的外观。有一点塑料感,细节上有点柔和(看看女孩的头发和皮肤,例如)。Qwen实际上是运行在Stable Diffusion之上的LORA(低秩适配),它继承了该架构的所有怪癖。它不太理解光的物理原理,只理解像素的统计概率。
文字问题:这是一个致命缺陷。我在提示中包含了文字指令,但Qwen完全搞砸了连帽衫上的字母。这是扩散模型的典型行为:它把字母看作形状,而不是语言(注意上面连帽衫图像中的袖子)。
提示遵循度:我不得不和这个工具斗争一下。除非我明确地将旋转参数(如"45度")写入文本提示,否则它不会尊重滑块参数。不过公平地说,这可能是Weavy实现的一个怪癖,所以对此要持保留态度,但摩擦就是摩擦。

3、冠军:Nano Banana Pro
然后是Nano Banana Pro。说实话?它完全是另一个级别的。
它并不完美——我会透明地说,我不得不"重新生成"几次,因为它并不总是在第一次尝试时遵循提示。姿势和位置在不同生成之间的变化比Qwen更大。但当它成功时,质量是巨大的。
产品一致性:这是杀手级功能。Nano Banana Pro是多模态LLM,不仅仅是扩散模型。它有一个世界模型。它理解主体穿着Aviator Nation连帽衫——可能从它与Google Shopping和Google Images的集成中获取信息——并在考虑这种上下文的情况下渲染了服装。

鸟瞰视角:由于那种3D世界理解,鸟瞰视角真正令人信服。Qwen很难从上方弄清楚场景的几何结构,但Nano Banana似乎"知道"身体如何占据3D空间。
文字完美:因为它是LLM,它能读写。连帽衫上的文字几乎完美渲染。没有胡言乱语,没有外星象形文字。
相似度和颜色:面部看起来像原始照片中的人。颜色忠实于源材料。感觉就像在处理原始文件,而不是在上面套用滤镜。

4、在Nano Banana Pro中控制相机角度
这是Nano Banana Pro以一种真正让我惊讶的方式展示其多模态能力的地方。我决定测试是否可以用图表而不是文字来控制相机角度。
首先,我尝试了一个2D俯视图,展示了一个相对于一辆旧款Acura Legend侧面照的相机角度……完美成功。但事情变得更好了:我上传了一个粗略的3D图表,显示了一个在3D空间中指向立方体的相机,令我惊讶的是,它也完美成功了。

现在,完全坦白:我的图表并不完美。但这实际上是最好的部分。 Nano Banana Pro不需要完美。它理解了意图,猜测了数学,并且做得相当不错。
同样,它并不完美,但这确实给了你用相对精确的方式在Nano Banana Pro中控制相机角度的能力(你可以用灯光做同样的事情)。
5、结束语
如果你只是随便玩玩,Qwen速度很快,能创建高对比度、鲜艳的图像。但对于需要可靠、高保真结果的创意专业人士来说?我很难推荐Qwen。
仅颜色偏移就是一个我们不需要的麻烦,无法处理文字限制了它在商业工作中的实用性。
Nano Banana Pro可能需要在重新生成上多一点耐心,但输出质量的差异是不可否认的。它尊重你主体的身份,理解你场景中的文字,并以扩散模型尚未达到的复杂程度渲染光线和几何结构。
对我来说(以及我的工作流程),Nano Banana Pro是轻松的选择——特别是Higgsfield的"Angles"实现。
原文链接: How To Create New Angles From Any Photo: Nano Banana Pro vs. Qwen Image Edit
汇智网翻译整理,转载请标明出处