Kimi K2 Thinking

Moonshot AI 的基准测试成绩,显示 K2 Thinking 在“代理推理”和“代理搜索”方面击败了顶级的 OpenAI 和 Anthropic 模型,但在“编码”方面并未达到顶尖水平。

Kimi K2 Thinking

Moonshot 的 Kimi K2 被确立为最大的开源权重模型之一,拥有 1 万亿参数——早在七月。他们现在发布了 Thinking 版本,同样是 1 万亿参数(MoE,32B 活动),并且在他们自定义修改的(因此并不完全开源)MIT 许可证下。

从 Kimi K2 开始,我们将其构建为一个逐步推理并动态调用工具的思考代理。它通过大幅扩展多步骤推理深度并在 200-300 次连续调用中保持稳定的工具使用,在 Humanity's Last Exam (HLE)、BrowseComp 和其他基准测试中设定了新的最先进水平。同时,K2 Thinking 是一个原生 INT4 量化模型,具有 256k 上下文窗口,实现了推理延迟和 GPU 内存使用的无损减少。

这个模型在 Hugging Face 上只有 594GB——Kimi K2 是 1.03TB——我认为这是由于新的 INT4 量化。这使得模型在托管时更加便宜且快速。

到目前为止,唯一托管它的只有 Moonshot 自己。我通过 他们自己的 APIOpenRouter 代理 测试了它,分别通过 llm-moonshot 插件(由 NickMystic 编写)和我的 llm-openrouter 插件。

目前围绕这个模型的反响非常积极。这是否可能是第一个能够与 OpenAI 和 Anthropic 最新模型竞争的开源权重模型,特别是对于长时间运行的代理工具调用序列?

Moonshot AI 的 自我报告的基准测试成绩 显示 K2 Thinking 在“代理推理”和“代理搜索”方面击败了顶级的 OpenAI 和 Anthropic 模型(GPT-5 和 Sonnet 4.5 Thinking),但在“编码”方面并未达到顶尖水平:

我运行了一些 pelican 测试:

llm install llm-moonshot
llm keys set moonshot # 粘贴密钥
llm -m moonshot/kimi-k2-thinking '生成一个鹈鹕骑自行车的 SVG'
llm install llm-openrouter
llm keys set openrouter # 粘贴密钥
llm -m openrouter/moonshotai/kimi-k2-thinking '生成一个鹈鹕骑自行车的 SVG'

Artificial Analysis 表示

Kimi K2 Thinking 在 𝜏²-Bench Telecom 基准测试中达到了 93%,这是一个代理工具使用基准测试,模型充当客户服务代理。这是我们在独立测量中获得的最高分数。在长期代理上下文中使用工具是 Kimi K2 Instruct 的优势,而这种新的 Thinking 变体似乎取得了显著进步。

CNBC 引用了提供训练价格的来源 提供了该模型的训练价格

据熟悉此事的消息人士称,Kimi K2 Thinking 模型的训练成本为 460 万美元。 [...] CNBC 无法独立验证 DeepSeek 或 Kimi 的数据。

MLX 开发者 Awni Hannun 成功在两个 512GB 的 M3 Ultra Mac Studio 上运行

新的 1 万亿参数 Kimi K2 Thinking 模型在两个 M3 Ultras 上以原生格式运行良好——没有质量损失! 该模型是在 int4 下进行量化感知训练(qat)。 在 mlx-lm 中使用管道并行性,它生成了约 3500 个标记,速率为 15 个标记/秒。

这里是 658GB 的 mlx-community 模型


原文链接:Kimi K2 Thinking  - Simon Willison's Weblog

汇智网翻译整理,转载请标明出处