AI导演手册
导演视角下如何将传统电影制作本能与AI工具相结合,在短短2周内打造高保真动画广告。
AI编程/Vibe Coding 遇到问题需要帮助的,联系微信 ezpoda,免费咨询。
我想分享一些我在Google领导上述假日社交广告时的幕后想法。这是给创意总监、设计师和动画师的,他们好奇AI如何融入真实制作。
在这个项目和其他AI驱动的工作中,我找回了职业生涯早期以来未曾有过的玩味感。虽然AI可以用来制作几乎任何东西,往往达到令人瘫痪的程度,但我相信这些工具对于那些善于表达愿景并足够理解流程以便对其进行修补的人来说是加速剂。
1、在空中构建生成平面
我是导演,领导一个包括动画师、设计师、作家和制作人的团队。我还向上管理其他导演、高管、PMM和法律。每个人都假设"AI便宜又简单",然而我们激进的两周期限是穿越未知流程的冲刺。我们临场开发了一种协作工作流程,可以适应不断变化的反馈,同时将质量推到足够高,让人们可能会质疑它是否是AI制作的。
2、概念:精灵们的YouTube时代
我们传统地开始:一个Laika风格的定格动画社交广告概念。经过一些迭代,被选中的想法是精灵们主持一个关于包装难包装礼物的播客:将成人化和"互联网编码"的东西与季节性怀旧的东西结合起来。
我们立即开始生成静态和动态视觉效果,而不是拉取静态参考。能够在第一天就用视觉特异性进行概念化是获得认可的一大突破。这也是通过查看哪些概念激发后续想法来检验自己兴奋度的好方法。在实践中,这感觉不太像组装传统情绪板,更像实时原型制作:思考、制作和评估都坍缩到同一阶段。
ImageFX生成的一些概念级作品。当我们开发脚本时,看到哪些想法对我们的"英雄"礼物有真正的视觉回报是有帮助的,这是基于真实结果。我们选择了一个像棒棒糖一样包装的高尔夫球杆。让AI制作糖果包装的球杆花了几次尝试。ImageFX快速且便宜,是实验的好地方。
3、工作流程:寻找控制
我们的开发过程将廉价的图像生成与更深思熟虑的细化相结合。我们在ImageFX中快速勾勒想法,然后在Flora中使用NanoBanana和NanoBanana Pro来磨练我们最喜欢的方向,以获得一致性和高分辨率。(虽然我被限制使用Google自己的AI模型,但我没有抱怨。我对输出的质量以及模型在短短几个月内的改进速度感到 genuinely 震惊。)实际上,节奏是:
Flora和其他基于节点的工具(例如Figma的Weavy、Adobe Firefly Boards)是能够有效使用AI的游戏规则改变者。雕刻和跟踪生成的能力让我洞察哪些提示正在将结果推向正确的方向。此外,基于节点的画布将过程转变为团队努力,允许协作者轻松审查和贡献。(如果你正在研究基于节点的工具,我很乐意聊聊!)
角色迭代的特写。那个最初的创世纪角色看起来很熟悉吗?:)
虽然NanoBanana在一致性和高级合成方面表现出色,但你仍然无法击败Photoshop的控制。例如,NanoBanana不断生成一个太暖的布景,这在PS中很容易调整。
相反,对于像品牌马克杯这样的小细节,我们直接在Photoshop中使用NanoBanana来精确迭代。我们还需要在Photoshop中将场景分成层,以便我们可以在After Effects中以高度控制将其重新组合。例如,我们的霓虹灯标志在它自己的层上,所以我们可以在最终作品中添加一点闪烁。这是一个小细节,但让我们远离了明显的AI外观。
在Photoshop中使用NanoBanana专注于特定细节意味着我们可以在不失去控制的情况下添加那些令人满意的设计复活节彩蛋。
早期角色设计的一些外观。我们喜欢第一个角色的简单性,这让他感觉更像玩具,而不像高端3D模型。
4、角色、布景和避免"皮克斯陷阱"
我们最重要的决定之一是角色设计。我们最终选择了"玩具相邻"的外观,在比例上采取自由以感觉像娃娃。AI对可爱、"皮克斯式"美学有显著偏见。控制风格漂移很重要,因为视频模型从角色设计中吸收固有线索。一旦设定,仅通过提示很难重新路由这些风格线索。对我们的基础风格保持有意帮助我们避免了后期的视频生成头痛。
我们也在布景设计上迭代。我们的第一个想法引用了一个老SNL小品,嘲笑NPR,但一旦我们看到那个布景的迷你版本,我们意识到当我们转向更现代的环境时,喜剧效果更好。我们通过霓虹灯标志探索了节目的品牌,并在乡村砖墙外观和Japandi风格之间权衡,找到将节日气氛注入假媒体财产的小方法。
5、转折点:"正典"
在构建了一个混乱、广阔的Flora板后,我意识到我们需要定义我们的**"正典"**。在实践中,这意味着从一个新的Flora板开始,其中的布景、角色和道具都是从锁定目标生成的,以获得更一致的结果。我们创建了蓝屏角色开始(和一些结尾)帧,并将它们组织成标记的镜头文件夹。我们使用蓝屏来缩小幻觉的影响,并增加精彩"表演"可用的几率。如果高管或法律要求我们在布景中调整某些内容,我们不必牺牲我们喜欢的生成。只有在用每个镜头填满正典目录后,我们才进入Flow,所以每个人都在从相同的真相来源生成。
由于Veo当时垂直分辨率有限,我们还确保在水平画布上生成广角镜头,以挤出更多像素的分辨率。虽然这些小变通方法已经开始变得不必要,因为模型不断改进,但拥有"预见未来"并预见技术缺陷的制作经验是一个很大的优势(至少在2026年Q1)。
一旦资产被锁定并使用Flora中的NanoBanana Pro进行高分辨率处理(Flora + Pro对于这一点是 genuinely 改变游戏规则的),多个人可以使用Flow(Veo3.1)并行生成镜头。没有那种"正典"纪律和蓝屏关键资产,幻觉会创造太多混乱无法管理,模型会以微妙的方式转移细节,这些方式后来合成出来会太费力。这一步是前期的工作,但最终是击中现在只有5天期限的关键。
6、提示即导演
在生成镜头时,我从简单的提示开始,然后分层细节。获得"正确"的镜头通常需要几次生成,有相当多的老虎机能量。我估计我们在整个广告中至少生成了1000个镜头。虽然你可以在Flora中生成Veo视频,但我们坚持使用Flow,因为我们需要大量的镜头。考虑到数量,Flow是更经济的选择。
我的提示随着进行而改进。XML提示对我来说并没有神奇地解决任何问题,但有意使用语言、添加结构和细节的顺序确实产生了影响。例如,我每个提示都以"锁定摄像机"开始,因为任何漂移都会使生成太难以驾驭。然后我总是使用一个在生成中被证明是一致的风格序言。即使是小的词语变化,如"娃娃"vs."木偶"vs."小雕像"也会稍微改变Veo生成角色动作的方式。
对于物理动作,隐喻效果很好。像对演员一样描述动作缩短了意图和结果之间的差距。例如,不要只提示"她举起手臂",而是画一个视觉桥梁,"她像行进乐队的领袖一样把棒棒糖 thrust 向空中"。
最终AE项目的外观,尽是其合成的荣耀——由Mike Russo合成和编辑
7、以传统方式完成
完成感觉 surprisingly 传统。我们进行选择,对蓝屏镜头进行粗剪,并开始在After Effects中合成。我们使用镜头模糊和色差来提升外观。(向Red Giant致敬。)
音频仍然是表明该作品是AI生成的主要线索。Veo尚不支持唇同步(不像其他一些模型),AI生成的对话在表演方面仍然相当"meh",更不用说 wildly 不一致了。所以我们使用人类演员和我们的作家进行真实的配音,然后通过让他们ADR到画面并在AE中时间重映射素材来 hack 音频。
有很多小幻觉我希望我们有时间纠正,但在我们的时间线内是不可能的。(你能发现它们吗?)但对我来说很明显,这些可能不会长期成为问题。
8、结束语
仍然让我感到惊讶的是,这个过程感觉多么有创意和战略性,以及它与传统后期制作工作流程的相似程度。除此之外,在意识到用一个小团队在两周内制作这样一个精致的广告在曾经会让人觉得提议很傻,这也是一种情感上的清算。
我作为导演的"面包和黄油"既不是定格动画也不是高端3D。鉴于我的作品集,我被雇佣来导演这种风格的东西是不太可能的。有了AI,我可以利用我想象力的全部广度来推销适合这个想法的概念。我20年前进入动态设计是因为它 expansive 且定义松散。那种"我们会想办法并重新混音"的心态实际上非常适合作AI电影制作。
能够推销任何东西让我充满活力。
也就是说,我对AI没有纯粹乐观的看法。我仍然担心这对工艺、专家和那些构建我们现在正在抽象的技术的人意味着什么。但这个项目也提醒我,导演本能仍然多么重要:沟通、构图、节奏、表演,以及对如何将碎片粘合在一起的实际理解,都是关键——而且我希望,是永恒的。
当我将AI视为一种新的、expansive 的工具,更像Adobe套件的早期,这里有很多值得 genuine 兴奋的东西。
原文链接: The AI Director's Playbook: Where Traditional Filmmaking Instincts Meet Generative Workflows
汇智网翻译整理,转载请标明出处