LongCat-Video-Avatar 数字人框架

AI 视频竞赛不再仅仅是生成随机的电影片段。新的战场是逼真的 AI 人类——能够说话、唱歌、反应，并在长视频中保持身份一致性，而不会在 10 秒后变成融化的蜡像。

这正是 LongCat-Video-Avatar 1.5 介入的地方。

由美团 LongCat 团队构建，该模型专注于可用于生产的音频驱动头像生成。

与许多在精选片段中看起来惊人但在实际使用中崩溃的研究演示不同，LongCat-Video-Avatar 1.5 在稳定性、长形式生成、唇形同步质量和多角色交互方面进行了大量优化。

这不仅仅是另一个"说话头"模型。

它是一个完整的框架，使用音频、文本、图像和延续管道来生成数字人类。

1、LongCat-Video-Avatar 1.5 究竟是什么？

在核心层面，LongCat-Video-Avatar 1.5 是一个基于 LongCat-Video 基础模型构建的开源音频驱动视频生成框架。

该模型可以生成：

音频到视频头像
音频 + 图像动画人类
多角色对话
长形式视频延续
风格化动画角色
动物和动漫头像
商业级说话视频

该框架不仅仅动画化面部，还尝试维持：

全身时间一致性
准确的唇形同步
帧间稳定的身份
更好的运动连续性
长时间生成的稳定性

这很重要，因为大多数 AI 头像系统在较长生成后会失败。手部扭曲，身份漂移，唇形同步断裂，或身体动作变得机械。

LongCat-Video-Avatar 1.5 专门针对这些问题。

2、最大升级：Whisper-Large 替代 Wav2Vec2

1.5 版本中最大的架构升级之一是将音频编码器从 Wav2Vec2 迁移到 Whisper-Large。

但在实践中，它大幅改善了自然的唇部运动和语音对齐。较旧的头像模型经常存在以下问题：

嘴部运动延迟
表情僵硬
不自然的说话节奏
快速语音时同步性差

Whisper-Large 帮助模型更好地理解语音模式，从而产生更流畅、更类人的面部动态。

结果是头像说话感觉不像"AI 生成的木偶"，而更像真实的视频素材。

3、音频驱动视频生成正在成为一个新的 AI 类别

该模型支持多种生成模式：

3.1 音频-文本到视频（AT2V）

你提供：

一个音频片段
一个文本提示

模型从头生成一个说话的角色视频。例如：

"一个年轻女子坐在咖啡馆里微笑着解释量子计算。"

音频控制说话时机，文本控制外观和场景细节。

3.2 音频-图像到视频（AI2V）

此模式使用音频输入动画化参考图像。你基本上可以拿：

一张肖像图片
一段录音

...并生成一个说话的头像视频。

这可能是最具商业价值的模式，因为它可以驱动：

AI 演讲者
虚拟主播
AI 教育者
客户支持头像
营销视频
虚拟网红

3.3 视频延续

这是真正有趣的地方。

该模型可以继续之前生成的视频片段，同时保持身份一致性和时间连贯性。

这是生成式视频系统中的一个巨大挑战。大多数视频模型在短片段之后就挣扎，因为角色会随时间缓慢变异。LongCat 试图使用参考图像索引和遮罩帧控制策略来减少这个问题。

3.4 多人对话也受支持

大多数头像生成器只处理单个角色。

LongCat-Video-Avatar 1.5 支持多角色交互管道，多个人可以在同一个生成的场景中说话。

该框架甚至包括双音频处理模式：

合并模式

两个音频片段同时合并在一起。

适用于：

重叠对话
播客
辩论
采访

串联模式

音频片段按顺序播放。

适用于：

轮流对话
采访模拟
教育内容

这为数字人类之间的完全 AI 生成对话打开了大门。这在技术上令人印象深刻，也有些令人恐惧。

4、8 步推理优化意义重大

这里最重要的工程优化之一是使用基于 DMD2 的步数蒸馏。该模型仅需 8 个推理步骤即可生成视频。这很重要，因为视频扩散模型通常慢得令人痛苦。

在保持质量的同时减少推理步骤意味着：

更低的 GPU 成本
更快的服务
更便宜的部署
改善的可扩展性
更现实的实时应用

对于一个开源系统来说，该项目在速度和视觉保真度之间的平衡令人惊讶。

5、还支持 INT8 量化

这对本地 AI 构建者来说非常重要。这显著减少了 VRAM 要求。

因此，开发者不需要荒谬的企业级 GPU 设置，就可以在更易获得的硬件配置上进行实验。该框架还支持：

FlashAttention-2
FlashAttention-3
xFormers 加速

这表明该项目针对真实世界的推理性能进行了大量优化。

6、安装和设置

设置过程相当严肃，因为这是一个大型面向生产的视频框架。

你需要：

Python 3.10
兼容 CUDA 的 GPU
Torch 2.6
FlashAttention
ffmpeg
librosa

基本安装：

git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

然后创建环境：

conda create -n longcat-video python=3.10
conda activate longcat-video

安装 PyTorch：

pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

安装 FlashAttention：

pip install flash_attn==2.7.4.post1

然后使用 Hugging Face CLI 下载权重。

7、运行单人头像生成

示例命令：

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

这启动了音频-文本到视频生成，使用：

蒸馏推理
Whisper-large 编码器
INT8 量化

总体来说是一个相当优化的管道。

8、风格化头像生成出奇地好

该模型的一个被低估的方面是领域泛化能力。团队声称它适用于：

动漫角色
动物头像
风格化人类
逼真人类
商业场景
多人环境

这很困难，因为风格化领域通常比逼真素材更快地破坏时间一致性。该模型在混合艺术场景中出奇地稳健。

9、人工评估基准

评估设置实际上相当广泛。基准包括：

6 个应用场景
2 种语言
逼真 + 动画风格
508 个源对
770 名众包评估者
13,240 个判断

评估重点关注：

人类相似度
音频和视觉之间的和谐度
时间稳定性
物理真实感
身份一致性

这比许多开源视频项目通常提供的评估管道要广泛得多。

10、为什么这个模型很重要

LongCat-Video-Avatar 1.5 代表了 AI 正在发生的更大趋势。我们正在从：

"AI 可以生成酷炫片段"

转向

"AI 可以生成持久的数字人类。"

这改变了一切。下一代 AI 产品很可能包括：

AI 主播
AI 客户代理
AI 教师
AI 销售演示者
AI 新闻主播
AI 网红
AI NPC 系统
多语言数字人类

像 LongCat 这样的模型正在成为那个未来的基础设施。

11、更大的技术趋势

令人着迷的是，有多少 AI 子领域在这样的系统中汇聚：

扩散模型
语音理解
视频生成
时间一致性建模
量化
推理优化
多模态条件化
身份保持

AI 头像生成不再是一个玩具问题。它正在成为一个完整的工程技术栈。LongCat-Video-Avatar 1.5 感觉更接近生产软件，而不是一个简单的研究实验。

12、结束语

LongCat-Video-Avatar 1.5 是最近发布的最具雄心的开源头像视频生成框架之一。

以下功能的组合：

Whisper-Large 音频理解
长形式一致性
多人支持
高效推理
INT8 量化
风格化生成

使其比许多早期的头像系统更加实用。我们正在快速接近一个点：生成高质量的数字人类比录制实际视频更便宜。

互联网绝对没有为接下来会发生的事情做好准备。

原文链接：Longcat Video Avatar 1.5: Open-Source AI Avatar Generation Is Getting Scarily Good

汇智网翻译整理，转载请标明出处