Devstral:软件工程专用模型

Mistral Devstral-Small-2505是一个拥有 24B 参数的模型,与同类大小的模型相比,在软件工程任务中表现出了巨大的优势。

Devstral:软件工程专用模型

Mistral AI 再次强势回归,看起来每个人都在抢夺软件开发工作。这一次,这家法国人工智能初创公司开源了 Devstral-Small-2505,这是一个拥有 24B 参数的模型,与同类大小的模型相比,在软件工程任务中表现出了巨大的优势。

1、认识 Devstral:你的新编程助手

Devstral 不仅仅是一个代码生成的大语言模型——它是一个专门构建的代理型模型,能够像软件开发者一样思考和行动。它不仅仅是输出函数;它还能够在代码库中导航、编辑多个文件,并推动智能的软件工程工作流。你可以把它看作下一代开发工具和代理背后的智慧。

而且它已经引起了人们的注意。

2、由 Mistral-Small-3.1 支持

Devstral 是从Mistral-Small-3.1微调而来的,赋予了它令人印象深刻的128k token 上下文窗口——足以处理大规模代码库而不丢失关键信息。在微调之前,视觉编码器被移除,使其成为一个纯文本模型——非常适合所有你需要整理代码库的需求。

3、Devstral 为何脱颖而出

让我们来分解一下它的优点:

  • 代理型编码超能力

Devstral 是从零开始构建的,旨在实现代理型工作流——这意味着它不仅仅是在输出代码,而是作为更大开发循环的一部分进行有见地的决策。非常适合自主代理副驾驶工具集成工作流

  • 轻量级,本地化就绪

拥有240 亿参数,Devstral 找到了一个甜蜜点:聪明到足够强大,但轻量到可以在单个 RTX 4090 或甚至 32GB Mac 上运行。没错——不需要数据中心。

  • 开源许可

Apache 2.0发布,你可以自由使用、修改并商业化它。没有限制,没有麻烦。

  • Tekken 分词器

它使用了一个高容量的Tekken 分词器,具有131k 词汇量,这使得它在分发 token 方面具有细腻的控制力,特别是在代码密集型任务中,token 膨胀是一个真实存在的问题。

4、基准测试

让我们深入探讨一下SWE-Bench 验证分数,这是测试现实世界软件工程智慧的黄金标准:

Devstral 不仅击败了其他开源模型——它还超越了封闭源的巨头,如 GPT-4.1-mini。即使规模较小,它在相同的框架下也超过了更大的模型,如 Deepseek-V3–0324 和 Qwen3–232B。

5、什么是框架?

在大语言模型基准测试(如 SWE-Bench)中,框架指的是围绕任务设置的评估框架或提示结构,帮助模型完成任务。可以将其视为围绕问题的“测试环境设置”——提供上下文、指令,有时甚至提供工具的框架。

不同的框架 = 不同的表现。就像给某人更好的工具和指导可以帮助他们更快解决问题一样,一个精心设计的框架可以显著提高 LLM 在基准测试中的表现。

它包括以下内容:

  • 模型如何接收问题描述(提示格式)
  • 可用的工具或 API(如文件编辑器、搜索工具或测试运行器)
  • 中间步骤如何处理(例如多步推理或工具使用)
  • 什么算作“成功修复”(例如通过测试或更改正确的行)

6、结束语

如何免费使用 Devstral-Small?

模型权重是开源的,可以从 HuggingFace 获取。此外,如果你资源不足,可以尝试在这里免费使用它。

Devstral 对于软件工程师和代理开发者来说是一股清新的空气。它结合了代理型智能可扩展性现实世界性能,所有这些都打包在一个本地可运行、开源的模型中。无论你是要构建开发代理、代码探索器,还是只是想要一个真正理解你代码库的 LLM,Devstral 都应该在你的雷达上。


原文连接:Devstral Small: The best Software Engineering Agentic LLM by Mistral

汇智网翻译整理,转载请标明出处