MODEL-ZOO

Devstral：软件工程专用模型

Mistral Devstral-Small-2505是一个拥有 24B 参数的模型，与同类大小的模型相比，在软件工程任务中表现出了巨大的优势。

admin

May 26, 2025 • 4 min read

Mistral AI 再次强势回归，看起来每个人都在抢夺软件开发工作。这一次，这家法国人工智能初创公司开源了 Devstral-Small-2505，这是一个拥有 24B 参数的模型，与同类大小的模型相比，在软件工程任务中表现出了巨大的优势。

1、认识 Devstral：你的新编程助手

Devstral 不仅仅是一个代码生成的大语言模型——它是一个专门构建的代理型模型，能够像软件开发者一样思考和行动。它不仅仅是输出函数；它还能够在代码库中导航、编辑多个文件，并推动智能的软件工程工作流。你可以把它看作下一代开发工具和代理背后的智慧。

而且它已经引起了人们的注意。

2、由 Mistral-Small-3.1 支持

Devstral 是从Mistral-Small-3.1微调而来的，赋予了它令人印象深刻的128k token 上下文窗口——足以处理大规模代码库而不丢失关键信息。在微调之前，视觉编码器被移除，使其成为一个纯文本模型——非常适合所有你需要整理代码库的需求。

3、Devstral 为何脱颖而出

让我们来分解一下它的优点：

代理型编码超能力

Devstral 是从零开始构建的，旨在实现代理型工作流——这意味着它不仅仅是在输出代码，而是作为更大开发循环的一部分进行有见地的决策。非常适合自主代理、副驾驶和工具集成工作流。

轻量级，本地化就绪

拥有240 亿参数，Devstral 找到了一个甜蜜点：聪明到足够强大，但轻量到可以在单个 RTX 4090 或甚至 32GB Mac 上运行。没错——不需要数据中心。

开源许可

以Apache 2.0发布，你可以自由使用、修改并商业化它。没有限制，没有麻烦。

Tekken 分词器

它使用了一个高容量的Tekken 分词器，具有131k 词汇量，这使得它在分发 token 方面具有细腻的控制力，特别是在代码密集型任务中，token 膨胀是一个真实存在的问题。

4、基准测试

让我们深入探讨一下SWE-Bench 验证分数，这是测试现实世界软件工程智慧的黄金标准：

Devstral 不仅击败了其他开源模型——它还超越了封闭源的巨头，如 GPT-4.1-mini。即使规模较小，它在相同的框架下也超过了更大的模型，如 Deepseek-V3–0324 和 Qwen3–232B。

5、什么是框架？

在大语言模型基准测试（如 SWE-Bench）中，框架指的是围绕任务设置的评估框架或提示结构，帮助模型完成任务。可以将其视为围绕问题的“测试环境设置”——提供上下文、指令，有时甚至提供工具的框架。

不同的框架 = 不同的表现。就像给某人更好的工具和指导可以帮助他们更快解决问题一样，一个精心设计的框架可以显著提高 LLM 在基准测试中的表现。

它包括以下内容：

模型如何接收问题描述（提示格式）
可用的工具或 API（如文件编辑器、搜索工具或测试运行器）
中间步骤如何处理（例如多步推理或工具使用）
什么算作“成功修复”（例如通过测试或更改正确的行）

6、结束语

如何免费使用 Devstral-Small？

模型权重是开源的，可以从 HuggingFace 获取。此外，如果你资源不足，可以尝试在这里免费使用它。

Devstral 对于软件工程师和代理开发者来说是一股清新的空气。它结合了代理型智能、可扩展性和现实世界性能，所有这些都打包在一个本地可运行、开源的模型中。无论你是要构建开发代理、代码探索器，还是只是想要一个真正理解你代码库的 LLM，Devstral 都应该在你的雷达上。

原文连接：Devstral Small: The best Software Engineering Agentic LLM by Mistral

汇智网翻译整理，转载请标明出处