Seedance 2.0:AI正在成为导演
自 Seedance 2.0 发布以来已经过去了几个月。对于一个备受瞩目的模型来说,它的公开发布时间比预期要长。
原因很快就显而易见了。Seedance 2.0 因其生成逼真人物、可识别角色以及看起来令人不安地接近真实电影画面的场景而引起了广泛关注。
它是一个统一的多模态音视频生成系统,支持文本、图像、音频和视频输入。
该模型之所以登上全球头条,是因为其渲染效果不仅仅是干净或"电影感",而是以一种令人不安的逼真程度说服了观众。以威尔·史密斯、汤姆·克鲁斯和基努·里维斯面孔为风格的片段正是因此而广泛传播。
在本指南中,我将展示电影制作人如何利用这个视频模型,而无需过多关注提示词工程。
让我们开始吧。
1、Seedance 2.0 到底是什么
从技术上讲,Seedance 2.0 是一个原生多模态音视频生成模型。字节跳动表示,它采用了统一的音视频联合生成架构,而不是先生成图像再后期叠加声音。
官方表示,它支持四种输入模态,可直接生成 4 到 15 秒的音视频,原生输出 480p 和 720p。在开放平台方面,字节跳动表示它最多可以使用 9 张图像、3 个视频片段和 3 个音频片段作为参考输入。
以下是它的更多核心功能:
- 基于参考的生成和编辑:支持主体控制、运动控制、风格迁移、特效、视频编辑和视频扩展。
- 强大的提示词遵循能力:旨在比早期版本更准确地遵循复杂指令、长脚本、多镜头方向和分镜式输入。
- 更好的真实感和物理效果:强调更强的人体运动建模、时间一致性和跨帧连贯性。
- 电影化推理:能够处理镜头规划、摄影机运动、镜头排序和叙事节奏。
- 高保真音视频生成:同步生成音频和视频,包括对话、环境音、音效和背景音频。
- 角色和场景一致性:在保持主体身份、动作逻辑、风格一致性和情节连续性方面表现出色。
- 专业用例:面向广告、影视特效、游戏动画、解说视频和其他制作工作流程。
- 输出范围:支持 4 到 15 秒的片段,原生 480p 和 720p 输出。
以下是与上一版本的对比:
根据 Arena.AI 的排行榜,该模型击败了市场上一些最好的视频模型,包括 Google 的 Veo 3.1 和 OpenAI 的 Sora 2。
我可以为这些结果作证,因为我亲自在一些项目中试用了它们,Seedance 2.0 完全碾压了竞争对手。
2、在哪里测试 Seedance 2.0?
现在有多种方式可以试用 Seedance 2.0,特别是字节跳动已经通过其面向公众的生态系统和 API 访问接口开放了该模型。
目前提供 Seedance 2.0 视频生成的最佳平台之一,也是我个人推荐的,是 Topview AI。
Topview 是一个 AI 视频代理和一体化视频工作空间,更适合那些想做更多事情而不仅仅是运行一次性提示词测试的电影制作人和团队。
它允许用户在一个界面中使用多个视频和图像模型,其产品定位明确围绕实际制作任务:从提示词、模板、产品图像或参考视频生成视频。
在定价方面,Topview 为商业年度计划和 Ultra 计划的用户提供 365 天的 Seedance 2.0 无限访问。新的 Ultra 计划明确被定位为大规模生成创作者最具成本效益的选择,提供两种灵活的使用 Seedance 2.0 的方式:
- 用于优先处理的积分模式
- 用于全年生成的无限模式
该公司还计划为用户提供 365 天的无限 GPT Image 2 访问权限。
3、电影人的 Seedance 2.0 指南
在深入了解细节之前,以下是本节涵盖的内容:
- 镜头连贯性
- 摄影机运动
- 真实感
- 音质和同步
这四个方面是 Seedance 2.0 开始感觉不像提示词工具,而更像导演可以真正使用的东西的地方。
让我们从镜头连贯性开始。
这通常被称为"角色一致性",但我在这里使用"镜头一致性"一词,因为我们不仅仅在讨论角色是否保持不变。我们还在讨论模型是否记住了环境、场景布局以及需要在多个镜头之间延续的视觉细节。
要生成示例视频,请打开 Topview 中的 AI 视频生成工具,将模型设置为 Seedance 2.0。上传参考照片并描述场景内容。
提示词: 创建一个多镜头的深夜餐厅对话场景,两个角色 John 和 Olivia 在一家餐厅里。场景应该感觉亲密而克制,对话围绕他们关系中一个不言而喻的转折点展开。
调整参数,如视频长度、宽高比和分辨率。Topview 上的 Seedance 2.0 可以生成高达 1080p 的视频!
视频生成完成后,它会显示在屏幕右侧。以下是示例视频的效果:
首先,看看输出的逼真程度有多惊人。面部表情、皮肤纹理、头发、服装,所有这些都令人惊讶地令人信服。
我还非常喜欢对话交流过程中的摄影机运镜。场景的移动是有意图的。摄影机变换角度并调整变焦的方式感觉很有目的性,这赋予了对话更具电影感的节奏。
更令人印象深刻的是,对话本身感觉很到位,即使我从未明确告诉模型角色应该说什么。这充分说明了 Seedance 2.0 对场景上下文的理解程度。
让我们用纯文本提示词再做一个例子:
提示词: 原创机甲潜行动作场景。在未来工业城市的高空平台上,一名机甲忍者和一名重装甲敌人在暴风雨前夕展开最终对决。角色高速冲锋、拔刀、跳跃、落地。摄影机使用低角度跟踪、横向移动、慢动作和超广角镜头。霓虹灯穿透雨幕,金属表面强烈反射,强烈的冲击感,宛如季终集高潮战役。前 2 秒强悬念,主体稳定,动作流畅,电影级构图,逼真光照,史诗氛围,强烈情感,高清细节。
这个例子真正展示了 Seedance 2.0 在提示词遵循方面的强大能力。指令非常具体,但模型仍然交付了一个感觉受控、电影化且令人惊讶地精致的结果。
视频效果令人难以置信。机甲忍者的设计非常流畅,而摄影机运镜诚实地说是最出色的部分之一。看看慢动作中的后空翻!低角度跟踪镜头、横向移动和宽广的取景都赋予了整个序列巨大的规模感和冲击力。
这很容易被当作高端电子游戏的过场动画——那种工作室花费数十万美元制作的那种。
4、更多有趣的测试场景
以下是五个旨在测试 Seedance 2.0 不同优势的场景创意:
1. 快速摄影机运动
创建一个在拥挤的夜市中的快节奏夜间场景。一个穿红色夹克的年轻女子突然发现她的弟弟消失在人群中,并冲过去追赶他。序列应该感觉紧迫且不稳定(以一种好的方式),具有快速摄影机运动、快速重新构图和强烈的前进动力。
2. 动作场景
创建一个在半废弃酒店内的写实动作场景。一名中年侦探和一名离家出走的青少年正试图逃离武装追捕者,穿过狭窄的走廊和破损的楼梯间。场景应该感觉紧张、具有物理感和电影感,具有可信的动作和清晰的场面调度。
3. 慢节奏场景
创建一个在黎明时分的小渔村里的安静场景。一位老人和他成年的女儿在葬礼后坐在岸边,只说了几句话。这一刻应该感觉克制、亲密且情感沉重,具有微妙的表演和平静的视觉节奏。
4. 音乐视频
创建一个风格化的音乐视频序列,一位年轻女歌手在日落时的屋顶上表演,舞者在她周围移动穿过不断变化的光池。场景应该感觉有节奏感、富有表现力且视觉上大胆,具有强烈的氛围和表演能量。
5. 汽车追逐
创建一个在未来城市夜间的高速汽车追逐场景。一个拥有发光眼睛的人形外星人驾驶着一辆受损的黑色双门跑车,而两辆执法车辆在后面逼近。序列应该感觉紧张且电影化,具有快速转弯、险些碰撞、闪烁的反射和强烈的速度感。
5、首次生成后的可编辑性
Seedance 2.0 在首次生成后并不会停止发挥作用。
事实上,那才是它变得有趣的时候。一旦片段生成完成,你可以通过简单地与 AI 对话来继续处理它。你可以生成、检查、修改、替换、扩展和重新定时。
它的多模态参考支持是其中的重要组成部分。你不会被限制在一个提示词中,而是可以在创意发展过程中继续使用图像、视频和音频参考来引导场景。
Topview 很好地融入了这个过程。它就像一个沙盒,导演可以在将想法投入实际拍摄之前测试外观、节奏、运动、声音和场景结构。
以下是电影制作人实际使用它的更多实用方式:
- 预可视化:用于短场景、动作片段和摄影机调度
- 推介预告片和氛围卷轴
- 视觉开发:使用参考图像、镜头板和声音创意
- 表演探索:在选角或排练之前
- 广告概念:其中时间、运动和氛围比最终像素完美更重要
- 音乐视频和风格化插片
- 社交媒体剪辑:仍然感觉是有导演指导的,而非模板化的
6、结束语
Seedance 2.0 最有趣的地方不在于它能制作看起来像电影的虚假片段。现在很多工具都能做到这一点。
而是该模型似乎在比大多数竞争对手更高的层面上理解场景。字节跳动自己的材料将其定位为围绕多模态控制、更强的物理真实感和音视频一致性。公众反应,包括法律恐慌,基本上证明了真实感的跃升不是开玩笑的。
得益于 Topview 等平台,使用该模型现在变得非常简单。免费积分和折扣也使其更容易被像我这样只是想测试创意而不想过度复杂化流程的普通用户所使用。
我鼓励你使用本文中列出的提示词,用 Seedance 2.0 创建你自己的 AI 视频。尝试不同的场景,多做实验,看看这个模型到底能做什么。
原文链接: I Tested Seedance 2.0 Like a Filmmaker, Not a Prompt Engineer
汇智网翻译整理,转载请标明出处