Krea 2 开源图像生成模型
Krea 2是一个120亿参数的开源图像模型,可与闭源API相媲美。以下是技术报告揭示了什么以及如何在本地运行它。
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
闭源前沿迎来了竞争者。2026年6月22日,Krea发布了Krea 2的权重——一个从头开始在数十亿真实图像上训练的129亿参数扩散Transformer——Hacker News帖在几小时内获得了348分。该版本发布了两个互补的检查点:Krea 2 Raw(一个未经蒸馏的基础模型,专为微调和LoRA训练设计)和Krea 2 Turbo(一个8步蒸馏引擎,可在消费级硬件上约两秒生成2K图像)。两者均在Hugging Face上以社区许可证发布,允许个人和小团队免费商业使用。
使这次发布与众不同的是随附的深度内容。Krea发布了一份完整的技术报告,详细介绍了从数据策展理念到分布式训练基础设施的方方面面——这种文档通常是前沿实验室秘而不宣的。

1、Krea 2究竟是什么
Krea 2的核心是一个单流扩散Transformer。其架构使用12.9B密集DiT骨干网络,包含28个宽度为6144的Transformer模块、分组查询注意力与门控sigmoid注意力、4倍扩展的SwiGLU MLP以及3D轴向RoPE位置编码。文本编码器采用Qwen3-VL-4B-Instruct,配备新颖的多层特征聚合机制,可动态选择从粗到细的文本表示——这是对仅依赖语言模型最终层输出的重大升级。
2、技术报告揭示了什么
Krea的技术报告出人意料地坦率。他们公开发布了失败实验及其内部评估。报告显示了一个无情的迭代过程——在某些指标上获得提升的训练配方在其他指标上却出现了倒退,需要识别和修复的数据问题——这些都是真实研究的样子,而非成功学的叙述。
2.1 无合成数据,有意为之
Krea 2完全在真实人类图像上训练——数十亿张。这一设计决策源于Krea关于合成数据的立场:合成数据在扩大规模方面看似有吸引力,但它会在纹理、解剖结构和构图上留下痕迹。他们希望模型学习真实世界的分布。
2.2 六阶段训练流程
Krea 2的训练流程包含六个可识别阶段,从基础文本到图像对齐开始,逐步引入更高分辨率、多任务目标和基于rubric的强化学习。每个阶段都增加了前一个阶段不具备的能力。
2.3 基于Rubric的RL奖励
Krea 2使用视觉语言模型作为评判标准——不是单一的自动度量,而是评估构图、美学质量和文本到图像对齐的rubric。这种基于rubric的强化学习方法使模型超越了纯粹的模仿,使其能够根据人类偏好的结构化定义进行优化。
3、如何在本地运行
在消费级GPU上运行Krea 2:
- 安装ComfyUI
- 从Comfy-Org/Krea-2下载FP8模型文件——
krea2_turbo_fp8_scaled.safetensors和qwen3vl_4b_fp8_scaled.safetensors - 将两个文件放入
ComfyUI/models/checkpoints/ - 从Krea的Hugging Face仓库下载工作流JSON文件
- 将其拖入ComfyUI
系统要求:
- 16GB VRAM(FP8模式下运行Krea 2 Turbo的最低要求)
- 建议24GB用于更大批量或更高分辨率
4、Krea 2与Midjourney对比
人们自然会比较。Krea 2在图像质量和文本到图像对齐方面展示了令人印象深刻的能力,在某些领域可与Midjourney竞争。然而,它并非在所有方面都获胜——特定风格和某些类型的光照与构图仍存在差距。对于开源模型来说,关键是它正在缩小差距。
5、结束语
Krea 2代表了开源图像生成的一个重要里程碑。通过发布完整的权重、详细的技术报告和商业友好型许可证,Krea使高质量图像生成对更广泛的受众更加可及。对真实数据、透明训练实践和基于rubric的优化的关注使Krea 2不仅是另一个模型版本,而是对AI图像生成领域的实质性贡献。
原文链接: Krea 2: Open-Weights Image Model That Caught the Frontier
汇智网翻译整理,转载请标明出处