MODEL-ZOO

Kimi K2 Thinking

Moonshot AI 的基准测试成绩，显示 K2 Thinking 在“代理推理”和“代理搜索”方面击败了顶级的 OpenAI 和 Anthropic 模型，但在“编码”方面并未达到顶尖水平。

admin

Nov 9, 2025 • 4 min read

Moonshot 的 Kimi K2 被确立为最大的开源权重模型之一，拥有 1 万亿参数——早在七月。他们现在发布了 Thinking 版本，同样是 1 万亿参数（MoE，32B 活动），并且在他们自定义修改的（因此并不完全开源）MIT 许可证下。

从 Kimi K2 开始，我们将其构建为一个逐步推理并动态调用工具的思考代理。它通过大幅扩展多步骤推理深度并在 200-300 次连续调用中保持稳定的工具使用，在 Humanity's Last Exam (HLE)、BrowseComp 和其他基准测试中设定了新的最先进水平。同时，K2 Thinking 是一个原生 INT4 量化模型，具有 256k 上下文窗口，实现了推理延迟和 GPU 内存使用的无损减少。

这个模型在 Hugging Face 上只有 594GB——Kimi K2 是 1.03TB——我认为这是由于新的 INT4 量化。这使得模型在托管时更加便宜且快速。

到目前为止，唯一托管它的只有 Moonshot 自己。我通过他们自己的 API 和 OpenRouter 代理测试了它，分别通过 llm-moonshot 插件（由 NickMystic 编写）和我的 llm-openrouter 插件。

目前围绕这个模型的反响非常积极。这是否可能是第一个能够与 OpenAI 和 Anthropic 最新模型竞争的开源权重模型，特别是对于长时间运行的代理工具调用序列？

Moonshot AI 的自我报告的基准测试成绩显示 K2 Thinking 在“代理推理”和“代理搜索”方面击败了顶级的 OpenAI 和 Anthropic 模型（GPT-5 和 Sonnet 4.5 Thinking），但在“编码”方面并未达到顶尖水平：

我运行了一些 pelican 测试：

llm install llm-moonshot
llm keys set moonshot # 粘贴密钥
llm -m moonshot/kimi-k2-thinking '生成一个鹈鹕骑自行车的 SVG'

llm install llm-openrouter
llm keys set openrouter # 粘贴密钥
llm -m openrouter/moonshotai/kimi-k2-thinking '生成一个鹈鹕骑自行车的 SVG'

Artificial Analysis 表示：

Kimi K2 Thinking 在 𝜏²-Bench Telecom 基准测试中达到了 93%，这是一个代理工具使用基准测试，模型充当客户服务代理。这是我们在独立测量中获得的最高分数。在长期代理上下文中使用工具是 Kimi K2 Instruct 的优势，而这种新的 Thinking 变体似乎取得了显著进步。

CNBC 引用了提供训练价格的来源提供了该模型的训练价格：

据熟悉此事的消息人士称，Kimi K2 Thinking 模型的训练成本为 460 万美元。 [...] CNBC 无法独立验证 DeepSeek 或 Kimi 的数据。

MLX 开发者 Awni Hannun 成功在两个 512GB 的 M3 Ultra Mac Studio 上运行：

新的 1 万亿参数 Kimi K2 Thinking 模型在两个 M3 Ultras 上以原生格式运行良好——没有质量损失！该模型是在 int4 下进行量化感知训练（qat）。在 mlx-lm 中使用管道并行性，它生成了约 3500 个标记，速率为 15 个标记/秒。

这里是 658GB 的 mlx-community 模型。

原文链接：Kimi K2 Thinking - Simon Willison's Weblog

汇智网翻译整理，转载请标明出处