开放模型提供商的质量控制

OpenRouter是一项服务,让你只需一个账户就能使用多种不同的模型。也就是说,一个支付平台就能使用众多模型,而且切换模型就像修改代码中的一行一样简单。它真的很棒。我在上一篇文章中讨论过它。

它还为每个模型列出了多个提供商。所以如果有其他服务商提供更便宜的价格,路由器会自动切换到他们。只需确保在默认提供商排序中选择"价格"选项。默认是"平衡"模式,看起来是随机选择提供商的。

看起来有些服务商已经以更便宜的价格提供Kimi K2.6了。从上面的截图来看,这些服务商是Parasail和io.net。

但这带来了一个有趣的问题。如果Parasail和io.net以更便宜的价格提供Kimi K2.6,我们如何知道他们运行得正确呢?因为运行一个大语言模型有很多步骤。在研究上一篇文章时,我注意到有些提供商的声誉不太好。

特别是NovitaAI和Groq。Groq有点令人困惑,因为有一个大语言模型也叫Groq。我说的不是那个。我说的是Groq作为某些大语言模型的提供商。他们的速度非常快,每秒生成的token数是其他提供商的10倍。

他们是怎么做到的?他们削弱了模型。有几种方法可以做到这一点。最明显的是提供商可以使用不同的量化方式。事实上这非常常见,以至于OpenRouter允许你查看某些提供商的量化信息。

然后提供商可以压缩KV缓存、降低图像分辨率,或者直接忽略你给它的temperature等参数。所有这些技巧都会显著降低模型的智能水平,而Groq和NovitaAI似乎就犯了这些错误。

这就造成了一个相当大的问题。用户可能会试用一个模型然后说"这个模型太糟糕了",而实际上它是被提供商削弱过的。这会损害模型的声誉,也意味着人们将无法再信任基准测试分数。用MoonshotAI团队的话来说:

如果用户无法区分"模型能力缺陷"和"工程实现偏差",对开源生态系统的信任将不可避免地崩溃。

那该怎么办?我们创建一个测试来检查这个问题。而这就是MoonshotAI所做的。MoonshotAI宣布了Kimi Vendor Verifier。这是一个开源工具,旨在检查提供商是否正确配置了开放权重模型。

它的工作方式类似于基准测试。实际上它包含多个测试。具体来说,它使用了预验证阶段、OCRBench、MMMU Pro、AIME2025、K2VV ToolCall和SWE-Bench。所以非常全面。如果一个模型通过了所有这些测试,那就意味着它应该与官方Kimi K2.6模型的表现相似。

现在我听到有人说提供商可能会在这些测试中作弊。我的意思是,这是可能的,但如果他们这么做了,很快就会被发现,因为任何人都可以运行这些测试。而且MoonshotAI实际上已经宣布了"持续基准测试",这表明他们将定期审计提供商。

此外,由于是开源的,预计其他开放模型也会为自己的模型采用这个验证器。我的意思是,它们都面临同样的问题,而这就是解决方案。嘿,也许闭源模型也会采用,因为闭源模型也通过Microsoft Azure和Amazon Bedrock等服务在OpenRouter上提供。

也许我们甚至会在OpenRouter上看到某种验证徽章。这会非常有用,因为我偶尔会遇到模型的问题。最近我一直在遇到JSON问题。Gemini在JSON方面一直表现得很好。这些开放模型?就不那么好了。

我一直有个疑问:JSON问题是模型的问题还是提供商的问题?没有严格的测试,就不可能知道。而且,这是什么?看起来K2VV ToolCall步骤就是专门为JSON Schema准确性而包含的。

我真的认为开放模型将成为大语言模型的未来。Anthropic?OpenAI?抱歉,华尔街,但这些提供商没有护城河。我已经切换到OpenRouter,而且非常满意。

唯一的问题是质量控制问题。开放模型肯定存在柠檬市场问题。这是一个经济学概念,意思是如果没人知道他们买的东西的质量如何,平均质量就会下降以降低成本。换句话说,每个产品都会变成柠檬。

很容易看出这如何适用于开放权重模型。如果没人披露他们使用了哪些参数,最终就会迫使每个人都使用最低、最省成本的参数。这可能会严重损害开放权重模型的 perceived quality。但随着这个公告的发布,问题可能得到了解决。因为现在终于有办法验证你得到的是否是模型创建者所设计的版本。

现在,我必须承认,我从未真正受到这个问题的太大影响。我的意思是,我一直对JSON问题感到疑惑,但它从未成为太大的问题。这个问题在编程模型上变得更加严重,比如Kimi K2.6和GLM 5.1。这可能就是为什么Kimi要推出这个工具:他们有一个非常好的模型,他们想让每个人都知道。

而且每个人都会知道它。尤其是考虑到这个价格。成本不到Claude Opus的五分之一,性能却相似?求之不得。而且也不是每个人都在用Opus运行Claude Code。Claude Code实际上也在OpenRouter上,而且 apparently 不到一半的请求在使用Opus。其余的分布在各种模型之间,比如Sonnet、GLM 5.1和GPT。

嘿,看,Kimi K2.6和GLM 5.1

开放模型肯定有发光的空间。而且,谁知道呢,也许2026年会成为开放模型最终起飞的一年。


原文链接: Finally, Quality Control Is Coming to the Wild West of Open Models

汇智网翻译整理,转载请标明出处