Ornith-1.0-35B:超快的MoE模型
我已经在本地运行Qwen3.6–27B好几个月了。它一直是我处理编码、推理和智能体任务的主力模型。这是个可靠的模型,但27B的密集参数需要强大的硬件支持。
今天Ornith-1.0–35B在HuggingFace上发布了,我忍不住要试试看。
让我惊讶的是:一个350亿参数的模型,每个token只激活约30亿参数,就能在消费级硬件上流畅运行,并且在编码和工具使用方面达到了密集27B模型的水平。
无需升级llama.cpp,无需特殊的服务栈。只需下载GGUF文件即可运行。
它非常快,真的非常快。
1、什么是Ornith-1.0–35B?
Ornith-1.0是DeepReinforce基于Qwen 3.5预训练权重并使用其"自脚手架"RL方法微调的一系列模型。35B变体是一个 混合专家(MoE)模型——总参数量为350亿,但每个token仅激活约30亿参数。
可以这样理解:你的模型拥有350亿规模的"大脑",但对于任何一个特定的想法,它只激活相关的30亿神经元。其余的保持空闲,节省算力。
结果是?在约30亿活跃算力下,达到接近270亿密集模型的质量。
对于本地AI来说,这正是我们一直在等待的最佳平衡点。
2、关键数据
我运行了Weschera的spark-bench——一个涵盖10个领域57个场景的综合能力基准测试。以下是它与Qwen3.6系列的对比:
Model Overall Coding Math Tool Use Reasoning
Ornith-1.0-35B 41.07 62.26 47.29 58.14 38.92
Qwen3.6-27B (dense) 43.12 64.18 49.87 56.32 41.05
Qwen3.6-35B-A3B (MoE) 39.84 59.47 44.12 52.88 37.21
几点值得注意:
Ornith全面超越Qwen3.6–35B-A3B。 这是它与最具直接可比性的模型——两者都是35B MoE,活跃参数约3B。但Ornith的自脚手架RL训练使其在编码(+2.8分)、工具使用(+5.3分)和推理(+1.7分)方面具有明显优势。
Ornith与Qwen3.6–27B的差距微乎其微。 密集27B模型在总体得分上仍然领先(+2.05分),但在编码方面的差距急剧缩小(+1.92分),而工具使用方面Ornith实际上已经反超(+1.82分)。在数学和纯推理方面,密集模型仍有优势——但对于智能体编码工作来说,Ornith极具竞争力。
3、MacBook实战测试:真实硬件,真实速度
接下来就有意思了。我把Ornith-1.0–35B接入MacBook上的AZ PAL,运行了真实的智能体工作流程——网页搜索、代码生成、文件编辑,全套流程。
体验如何?几乎与Qwen3.6–27B相同,但更快。
Ornith的MoE架构意味着每个token只激活约30亿参数。在llama.cpp的Q4_K_M量化下,这意味着每个token的计算量远低于密集27B模型,尽管总参数量更高。
Model Q4_K_M Size Active Params Est. tok/s (M4 Max 64GB)
Ornith-1.0-35B (MoE) 21.2 GB ~3B ~75-85 tok/s
Qwen3.6-27B (dense) 16.5 GB 27B ~15-18 tok/s
Qwen3.6-35B-A3B (MoE) 20.5 GB ~3B ~65-75 tok/s
Ornith的GGUF文件在Q4_K_M下为21.2 GB,略大于Qwen3.6–27B的16.5 GB,但每个token的活跃算力大约低9倍。这就是MoE的魔力:你需要预先支付内存成本来加载所有专家,但每个token只需30亿参数的计算量。
在我的M4 Max 64GB上,Ornith在Q4_K_M下舒适运行,总VRAM使用约25 GB(权重+KV缓存+运行时),为上下文和其他应用留下了充足的空间。
4、无需升级llama.cpp
这一点值得强调:Ornith-1.0–35B可直接与当前版本的llama.cpp配合使用。
该模型使用与Qwen模型相同的<think> / </think>思考标签。llama.cpp原生支持MoE路由。无需自定义补丁、无需专门构建版本、无需等待上游支持。
我只需下载GGUF文件,将其指向Agent,它就能正常工作。思考标签解析正确,工具调用正常,模型处理多轮智能体循环也没有问题。
5、Ornith的亮点与局限
编码和工具使用: 这是Ornith的主场。自脚手架RL训练专门针对智能体编码工作流程设计。在我的测试中,它生成的代码干净整洁,能很好地处理多文件编辑,并能以良好的判断力使用工具(网页搜索、Shell命令)。
推理: 不错,但尚未达到Qwen3.6–27B的水平。对于纯数学或复杂逻辑推理,密集27B模型仍有优势。但对于编码中重要的推理(调试、架构决策、代码审查),Ornith已经绰绰有余。
长上下文: 该模型支持200K以上的上下文窗口。我尚未将其推向极限,但在32K-64K范围内,它处理大型代码库和多文档RAG没有问题。
它不是: 如果你需要最大的推理深度或数学能力,它无法替代Qwen3.6–27B。但如果你的主要工作是编码、工具使用和智能体工作流,Ornith以极低的计算成本提供了90%的质量。
6、结束语
Ornith-1.0–35B是那种让你重新思考参数数量军备竞赛的模型。
350亿总参数。每token活跃30亿。编码和工具使用接近270亿密集模型质量。在消费级硬件上运行。无需特殊服务栈。
对于MacBook上的本地AI来说,这就是最佳平衡点。
如果你正在本地运行Qwen3.6–35B-A3B,升级到Ornith。如果你正在运行Qwen3.6–27B并希望在不大幅牺牲质量的前提下获得更快的推理速度,试试Ornith。GGUF文件在HuggingFace上,与llama.cpp的集成无缝衔接,结果不言自明。
本地开源AI在不断进步,MoE模型能这样改进仍然令人惊讶,而且似乎还有很大的提升空间。期待Qwen3.7–27B。
原文链接: Ornith-1.0–35B: The MoE Model That Runs Like 3B, Thinks Like 27B
汇智网翻译整理,转载请标明出处