Qwen-Image
每个月都会有人推出一个“开源DALL·E杀手”。但一旦你让它写一个招牌,或者在街头广告牌上放一句话,它们就会失效。它们无法对齐,无法渲染文字,无法保持布局。要么是好的风格,要么是好的结构。两者不能兼得。
然后Qwen-Image出现了。这一次,它不是试图用艺术风格或动漫滤镜来耍聪明。它专注于真正重要的事情:保真度、对齐、多语言渲染、图像编辑、布局控制和硬核提示遵循。
这不仅仅是一个扩散模型。这是一个完整的图像生成系统,专门用于一件事:理解你想要什么并正确绘制它。
1、什么是Qwen-Image?
来自Qwen系列的新开源图像基础模型(与Qwen2.5-VL和Qwen3同属一个团队)。它进行文本到图像、图像编辑、视图合成、分割、深度估计等操作。但主要亮点是:它实际上可以渲染可读的、布局正确的多语言文本。不仅仅是气球上的“L O V E”涂鸦,还有中文诗歌、UI原型、PowerPoint幻灯片、海报。
2、架构:三个大脑协同工作
- Qwen2.5-VL:可以将其视为理解您提示的大脑。它了解语言、视觉和上下文。在训练期间被冻结,以保持其敏锐。
- VAE(变分自编码器):这个模型压缩并重建图像。特别训练以保留小字体、边缘文字、布局保真度,特别是真实文档如PDF、海报、幻灯片。
- MMDiT(多模态扩散变压器):主生成器。从其他两个模型中获取噪声和指导,并将其转换为最终图像。
关键创新:而不是将所有内容塞入一个流中,他们将输入分为两种类型:
- 语义(图像的含义)
- 重建(图像的外观)
这种双重编码意味着它可以在保持视觉保真度和上下文完整的同时编辑图像。
3、位置编码修复:MSRoPE
这是大多数模型出错的地方,它们无法区分文字和图像的边界。Qwen-Image添加了一种称为**多模态可扩展RoPE(MSRoPE)**的东西。它将文字嵌入图像网格的对角线上,而不是将一切扁平化。奇怪的技巧,但有效——模型不再混淆“Hello”和窗户了。
4、数据:质量胜于数量
他们没有只是把100亿张爬取的图片扔给模型,希望一切顺利。
训练数据是平衡、过滤和结构化的,特别强调四个类别:
- 自然(风景、室内、食物等):55%
- 设计(幻灯片、UI、海报、艺术):27%
- 人物(肖像、活动):13%
- 合成(文字密集的图像):5%
每张图片都经过七轮过滤:
- 移除模糊、旋转、低分辨率、重复、不适宜、嘈杂、过度饱和的图像
- 拒绝长或无效的标题
- 根据模型弱点分类和重新平衡
- 增强表现不佳的集合,如肖像和布局
对于文字渲染,他们没有依赖发现的数据,而是自己构建。使用受控的合成流程:
- 纯渲染:带有大段文字的简单背景
- 组合渲染:嵌入现实场景中的文字
- 复杂模板:结构化文档如UI原型或幻灯片
所有内容都通过单次标注+元数据提取系统进行注释。设置后没有人工参与。干净且可扩展。
5、训练策略
Qwen-Image并没有仓促行事。它是通过逐步阶段进行训练的:
- 从256p低分辨率开始
- 逐渐提高到640p,然后是1328p
- 首先学习通用图像生成
- 然后教它如何渲染文字
- 最后重新平衡类别和分辨率
没有激活检查点(太慢),仅使用Megatron-LM进行分布式训练,采用混合并行性。生产者-消费者框架将预处理与训练解耦。生产者对所有内容进行编码和缓存;消费者只需训练。干净的设置。
6、基准测试:它在哪里获胜
文本到图像:
- 在GenEval上,Qwen-Image在RL之后达到0.91,高于Seedream 3.0、GPT Image 1和所有其他模型。
- 在DPG上,得分88.32,超过GPT Image 1(85.15)和FLUX.1(83.84)。
- 在OneIG-Bench上,在英文和中文赛道上均排名第一。
- 在TIIF上,排名第二,仅次于GPT Image 1——仍然领先于大多数。
文本渲染:
- 在CVTG-2K(英文)和他们自己的ChineseWord基准测试中击败了整个领域。
- LongText-Bench:在英文和中文的长文本中都是最佳。
图像编辑:
- 包括风格转移、姿态操控、文本编辑、对象增删,同时保持其余图像不变且语义连贯。
VAE性能:
- 在自然和文字密集的图像集上,PSNR和SSIM均为最佳。
- 即使只有19M编码器参数和25M解码器参数,它也超过了FLUX-VAE、Cosmos-CI和Hunyuan。
7、AI Arena排行榜:人类判断
这不仅仅是关于基准测试。在AI Arena上,用户可以比较生成结果(就像棋局中的Elo评分):
- Qwen-Image是排名第一的开源模型
- 超过GPT Image 1和FLUX.1 Kontext
- 仅落后于Imagen 4 Ultra约30 Elo点
而且它是完全开源的。你可以微调它、破解它、破坏它、修复它。没有API付费墙。
8、有什么不同之处
- 能工作的文本渲染。任何语言,任何布局。海报、文档、应用屏幕?没问题。
- 不会破坏事物的编辑。可以改变发色而不破坏面部。
- 开放模型,封闭API质量。第一个严肃的商业黑盒模型替代品。
- 训练做得很好。渐进式、过滤、平衡,并使用真实世界和合成数据。
9、如何免费使用Qwen-Image?
权重是开源的,你可以在huggingface上获取,也可以在qwen-chat上免费试用。
TL;DR:Qwen-Image不是关于炫酷的风格或艺术滤镜。它是一个实用工具。旨在准确、多语言、可编辑和智能。如果你正在开发需要可靠图像生成并遵循指令的应用程序,这可能是第一个真正实现的开源模型。
原文链接:Qwen-Image : Best open-sourced AI image generation is here
汇智网翻译整理,转载请标明出处