开放模型提供商的质量控制

OpenRouter是一项服务，让你只需一个账户就能使用多种不同的模型。也就是说，一个支付平台就能使用众多模型，而且切换模型就像修改代码中的一行一样简单。它真的很棒。我在上一篇文章中讨论过它。

它还为每个模型列出了多个提供商。所以如果有其他服务商提供更便宜的价格，路由器会自动切换到他们。只需确保在默认提供商排序中选择"价格"选项。默认是"平衡"模式，看起来是随机选择提供商的。

看起来有些服务商已经以更便宜的价格提供Kimi K2.6了。从上面的截图来看，这些服务商是Parasail和io.net。

但这带来了一个有趣的问题。如果Parasail和io.net以更便宜的价格提供Kimi K2.6，我们如何知道他们运行得正确呢？因为运行一个大语言模型有很多步骤。在研究上一篇文章时，我注意到有些提供商的声誉不太好。

特别是NovitaAI和Groq。Groq有点令人困惑，因为有一个大语言模型也叫Groq。我说的不是那个。我说的是Groq作为某些大语言模型的提供商。他们的速度非常快，每秒生成的token数是其他提供商的10倍。

他们是怎么做到的？他们削弱了模型。有几种方法可以做到这一点。最明显的是提供商可以使用不同的量化方式。事实上这非常常见，以至于OpenRouter允许你查看某些提供商的量化信息。

然后提供商可以压缩KV缓存、降低图像分辨率，或者直接忽略你给它的temperature等参数。所有这些技巧都会显著降低模型的智能水平，而Groq和NovitaAI似乎就犯了这些错误。

这就造成了一个相当大的问题。用户可能会试用一个模型然后说"这个模型太糟糕了"，而实际上它是被提供商削弱过的。这会损害模型的声誉，也意味着人们将无法再信任基准测试分数。用MoonshotAI团队的话来说：

如果用户无法区分"模型能力缺陷"和"工程实现偏差"，对开源生态系统的信任将不可避免地崩溃。

那该怎么办？我们创建一个测试来检查这个问题。而这就是MoonshotAI所做的。MoonshotAI宣布了Kimi Vendor Verifier。这是一个开源工具，旨在检查提供商是否正确配置了开放权重模型。

它的工作方式类似于基准测试。实际上它包含多个测试。具体来说，它使用了预验证阶段、OCRBench、MMMU Pro、AIME2025、K2VV ToolCall和SWE-Bench。所以非常全面。如果一个模型通过了所有这些测试，那就意味着它应该与官方Kimi K2.6模型的表现相似。

现在我听到有人说提供商可能会在这些测试中作弊。我的意思是，这是可能的，但如果他们这么做了，很快就会被发现，因为任何人都可以运行这些测试。而且MoonshotAI实际上已经宣布了"持续基准测试"，这表明他们将定期审计提供商。

此外，由于是开源的，预计其他开放模型也会为自己的模型采用这个验证器。我的意思是，它们都面临同样的问题，而这就是解决方案。嘿，也许闭源模型也会采用，因为闭源模型也通过Microsoft Azure和Amazon Bedrock等服务在OpenRouter上提供。

也许我们甚至会在OpenRouter上看到某种验证徽章。这会非常有用，因为我偶尔会遇到模型的问题。最近我一直在遇到JSON问题。Gemini在JSON方面一直表现得很好。这些开放模型？就不那么好了。

我一直有个疑问：JSON问题是模型的问题还是提供商的问题？没有严格的测试，就不可能知道。而且，这是什么？看起来K2VV ToolCall步骤就是专门为JSON Schema准确性而包含的。

我真的认为开放模型将成为大语言模型的未来。Anthropic？OpenAI？抱歉，华尔街，但这些提供商没有护城河。我已经切换到OpenRouter，而且非常满意。

唯一的问题是质量控制问题。开放模型肯定存在柠檬市场问题。这是一个经济学概念，意思是如果没人知道他们买的东西的质量如何，平均质量就会下降以降低成本。换句话说，每个产品都会变成柠檬。

很容易看出这如何适用于开放权重模型。如果没人披露他们使用了哪些参数，最终就会迫使每个人都使用最低、最省成本的参数。这可能会严重损害开放权重模型的 perceived quality。但随着这个公告的发布，问题可能得到了解决。因为现在终于有办法验证你得到的是否是模型创建者所设计的版本。

现在，我必须承认，我从未真正受到这个问题的太大影响。我的意思是，我一直对JSON问题感到疑惑，但它从未成为太大的问题。这个问题在编程模型上变得更加严重，比如Kimi K2.6和GLM 5.1。这可能就是为什么Kimi要推出这个工具：他们有一个非常好的模型，他们想让每个人都知道。

而且每个人都会知道它。尤其是考虑到这个价格。成本不到Claude Opus的五分之一，性能却相似？求之不得。而且也不是每个人都在用Opus运行Claude Code。Claude Code实际上也在OpenRouter上，而且 apparently 不到一半的请求在使用Opus。其余的分布在各种模型之间，比如Sonnet、GLM 5.1和GPT。

嘿，看，Kimi K2.6和GLM 5.1

开放模型肯定有发光的空间。而且，谁知道呢，也许2026年会成为开放模型最终起飞的一年。

原文链接: Finally, Quality Control Is Coming to the Wild West of Open Models

汇智网翻译整理，转载请标明出处