Sonnet 4.6 vs Opus 4.6

模型发布速度如此之快,以至于很难区分什么是真正的进步与仅仅是增量收益。

随着 Sonnet 4.6 的发布,我决定进行一些正面测试,将其与 Opus 4.6 进行比较。

AI 实验室发布的基准测试正变得越来越不可靠,所以我运行了一些简单的测试提示,在 Converge 中。

1、测试

我的第一个提示是构建塔防游戏。这主要是迫使模型同时处理状态、UI、渲染和游戏逻辑的前端类型任务。

这是我使用的提示:

构建一个完整的塔防游戏,具有固定路径,敌人在波次中生成,每次击杀赚钱,敌人在到达终点时失去生命。包括至少 3 种塔类型(不同范围/伤害/攻击速度)和升级,以及简单的 UI 来放置/销售/升级塔并开始下一波;保持代码整洁和模块化,并交付一个可玩的、平衡的 MVP。包括基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)。

2、评分标准

我将提示分解为检查清单,使其不仅仅是"氛围":

  • 立即运行(没有缺失部分,一次性完成)
  • 固定路径 + 敌人在波次中生成
  • 每次击杀金钱 + 泄漏生命减少
  • 3 种塔类型(范围/伤害/速度)
  • 升级工作
  • UI:放置/销售/升级塔
  • 开始下一波控制
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)
  • 感觉像可交付的 MVP(而不是损坏的演示)

3、结果

Opus 4.6

总体而言,Opus 4.6 做得相当不错。

Opus 的塔防 UI

突出的地方:

  • 坚实的基线 UI(不华丽,但功能正常)
  • 核心循环工作:波、塔、击杀 → 金钱
  • 升级 + 基本 UX 触点都在那里(甚至还有一些热键)

评分卡

  • 立即运行(没有缺失部分,一次性完成) — ✅
  • 固定路径 + 敌人在波次中生成 — ✅
  • 每次击杀金钱 + 泄漏生命减少 — ✅
  • 3 种塔类型(范围/伤害/速度) — ✅
  • 升级工作 — ✅
  • UI:放置/销售/升级塔 — ✅
  • 开始下一波控制 — ✅
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) — ✅
  • 感觉像可交付的 MVP — ✅

评分:9/9

Sonnet 4.5

我决定也测试 Sonnet 4.5 作为额外的基线,以更好地展示 Sonnet 家族从 4.5->4.6 的进步。我对生成质量的糟糕程度感到震惊。Sonnet 4.5 显然落后了。

我看到的:

  • UI 太基本了
  • 动画和整体"打磨"滞后
  • 塔和敌人即使在你可以看到敌人计数在减少时也不总是显示在 UI 上

评分卡

  • 立即运行(没有缺失部分,一次性完成) — ❌
  • 固定路径 + 敌人在波次中生成 — ✅
  • 每次击杀金钱 + 泄漏生命减少 — ✅
  • 3 种塔类型(范围/伤害/速度) — ✅
  • 升级工作 — ✅
  • UI:放置/销售/升级塔 — ❌
  • 开始下一波控制 — ✅
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) — ✅
  • 感觉像可交付的 MVP — ✅

评分:6/9

Sonnet 4.6

Sonnet 4.6 是事情变得有趣的地方!我最喜欢的生成,但不是大幅度领先。

  • UI 感觉更好,更接近典型的游戏
  • 游戏玩法和运动感觉更流畅、更连贯
  • 总体上它干净地达到了检查清单

在表现更好的同时,Sonnet 的价格也比 Opus 便宜近 50%。

评分卡

  • 立即运行(没有缺失部分,一次性完成) — ✅
  • 固定路径 + 敌人在波次中生成 — ✅
  • 每次击杀金钱 + 泄漏生命减少 — ✅
  • 3 种塔类型(范围/伤害/速度) — ✅
  • 升级工作 — ✅
  • UI:放置/销售/升级塔 — ✅
  • 开始下一波控制 — ✅
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) — ✅
  • 感觉像可交付的 MVP — ✅

评分:9/9

4、附加测试:构建 ChatGPT 克隆

由于 Sonnet 4.6 相当容易地处理了塔防游戏,我想通过让它重现 ChatGPT 来进一步推动它。同样,这是在 Converge 中完成的。

这里的提示:

创建一个功能齐全的 AI 聊天应用程序,复制 ChatGPT,具有高级功能,包括:
核心功能:
具有上下文感知和多轮对话的自然语言交流
支持带有丰富格式(粗体、斜体、代码块)的文本输入和输出
实时输入指示器和消息传递状态
用户身份验证和个人资料管理
带有搜索和导出选项的对话历史
可定制的用户设置(主题、字体大小、通知偏好)
高级功能:
处理多媒体输入(图像、音频)并生成描述性回复
允许用户引用过去对话的上下文记忆
基于用户交互自适应学习的个性化响应
用户界面设计:
干净、现代和极简主义布局,使用令人愉悦的调色板(例如,深海军蓝 #1A1F36、柔和蓝绿色 #4FB6AC、浅灰色 #F5F7FA 和白色)
具有清晰层次结构和充足留白的可读无衬线排版
为桌面、平板和移动设备优化的响应式设计
为消息转换和交互元素的流畅动画
具有键盘导航、屏幕阅读器支持和足够对比度的无障碍设计
交互和反馈:
为用户操作(发送、接收、错误)提供清晰的视觉反馈
为增强通信流程的输入指示器和已读回执
用于更快交互的快速回复建议和自动完成
确保应用程序提供直观、可靠且吸引人的对话 AI 体验,可在设备之间扩展并适应多样化的用户需求。

第一代中有很多东西起作用,缺少一些功能部分。

一件非常令人印象深刻的事情是它完美地处理了跨线程搜索。下面你会看到我提到我是湖人队的粉丝。

然后我开始了一个新的聊天,问它我喜欢哪个队,它记住了!在幕后,这一切都由 Converge 中的代理组件 提供支持

将提示转换为检查清单:

  • 多轮内存(每线程 + 跨线程上下文) — ✅
  • 身份验证 + 用户账户(OAuth / SSO 就绪) — ✅
  • 持久对话历史(搜索 + 导出) — ✅
  • 流式响应与交付状态 — ✅
  • 跨线程搜索 — ❌
  • 富文本 + 代码渲染 — ❌(有点)
  • 多模态输入(图像 + 音频上传) — ✅
  • 图像理解 — ✅
  • 个性化层(自适应记忆)* 文件上传处理 — ✅
  • 响应式、无障碍 UI(桌面 → 移动) — ✅
  • 用户设置(主题、通知、偏好) — ❌

5、结束语

Sonnet 4.6 是一个很棒的模型。我整周都在测试它,它和 Opus 4.6 一样好,甚至可能更好,同时也更便宜。

AI 世界的变化速度是无情的!


原文链接: I Tested Sonnet 4.6 vs Opus 4.6 for Vibe Coding — Here's the Winner

汇智网翻译整理,转载请标明出处