MODEL-ZOO

Krea 2 开源图像生成模型

Krea 2是一个120亿参数的开源图像模型，可与闭源API相媲美。以下是技术报告揭示了什么以及如何在本地运行它。

admin

Jul 2, 2026 • 4 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

闭源前沿迎来了竞争者。2026年6月22日，Krea发布了Krea 2的权重——一个从头开始在数十亿真实图像上训练的129亿参数扩散Transformer——Hacker News帖在几小时内获得了348分。该版本发布了两个互补的检查点：Krea 2 Raw（一个未经蒸馏的基础模型，专为微调和LoRA训练设计）和Krea 2 Turbo（一个8步蒸馏引擎，可在消费级硬件上约两秒生成2K图像）。两者均在Hugging Face上以社区许可证发布，允许个人和小团队免费商业使用。

使这次发布与众不同的是随附的深度内容。Krea发布了一份完整的技术报告，详细介绍了从数据策展理念到分布式训练基础设施的方方面面——这种文档通常是前沿实验室秘而不宣的。

1、Krea 2究竟是什么

Krea 2的核心是一个单流扩散Transformer。其架构使用12.9B密集DiT骨干网络，包含28个宽度为6144的Transformer模块、分组查询注意力与门控sigmoid注意力、4倍扩展的SwiGLU MLP以及3D轴向RoPE位置编码。文本编码器采用Qwen3-VL-4B-Instruct，配备新颖的多层特征聚合机制，可动态选择从粗到细的文本表示——这是对仅依赖语言模型最终层输出的重大升级。

2、技术报告揭示了什么

Krea的技术报告出人意料地坦率。他们公开发布了失败实验及其内部评估。报告显示了一个无情的迭代过程——在某些指标上获得提升的训练配方在其他指标上却出现了倒退，需要识别和修复的数据问题——这些都是真实研究的样子，而非成功学的叙述。

2.1 无合成数据，有意为之

Krea 2完全在真实人类图像上训练——数十亿张。这一设计决策源于Krea关于合成数据的立场：合成数据在扩大规模方面看似有吸引力，但它会在纹理、解剖结构和构图上留下痕迹。他们希望模型学习真实世界的分布。

2.2 六阶段训练流程

Krea 2的训练流程包含六个可识别阶段，从基础文本到图像对齐开始，逐步引入更高分辨率、多任务目标和基于rubric的强化学习。每个阶段都增加了前一个阶段不具备的能力。

2.3 基于Rubric的RL奖励

Krea 2使用视觉语言模型作为评判标准——不是单一的自动度量，而是评估构图、美学质量和文本到图像对齐的rubric。这种基于rubric的强化学习方法使模型超越了纯粹的模仿，使其能够根据人类偏好的结构化定义进行优化。

3、如何在本地运行

在消费级GPU上运行Krea 2：

安装ComfyUI
从Comfy-Org/Krea-2下载FP8模型文件——krea2_turbo_fp8_scaled.safetensors和qwen3vl_4b_fp8_scaled.safetensors
将两个文件放入ComfyUI/models/checkpoints/
从Krea的Hugging Face仓库下载工作流JSON文件
将其拖入ComfyUI

系统要求：

16GB VRAM（FP8模式下运行Krea 2 Turbo的最低要求）
建议24GB用于更大批量或更高分辨率

4、Krea 2与Midjourney对比

人们自然会比较。Krea 2在图像质量和文本到图像对齐方面展示了令人印象深刻的能力，在某些领域可与Midjourney竞争。然而，它并非在所有方面都获胜——特定风格和某些类型的光照与构图仍存在差距。对于开源模型来说，关键是它正在缩小差距。

5、结束语

Krea 2代表了开源图像生成的一个重要里程碑。通过发布完整的权重、详细的技术报告和商业友好型许可证，Krea使高质量图像生成对更广泛的受众更加可及。对真实数据、透明训练实践和基于rubric的优化的关注使Krea 2不仅是另一个模型版本，而是对AI图像生成领域的实质性贡献。

原文链接: Krea 2: Open-Weights Image Model That Caught the Frontier

汇智网翻译整理，转载请标明出处