Sonnet 4.6 vs Opus 4.6
模型发布速度如此之快,以至于很难区分什么是真正的进步与仅仅是增量收益。
随着 Sonnet 4.6 的发布,我决定进行一些正面测试,将其与 Opus 4.6 进行比较。
AI 实验室发布的基准测试正变得越来越不可靠,所以我运行了一些简单的测试提示,在 Converge 中。
1、测试
我的第一个提示是构建塔防游戏。这主要是迫使模型同时处理状态、UI、渲染和游戏逻辑的前端类型任务。
这是我使用的提示:
构建一个完整的塔防游戏,具有固定路径,敌人在波次中生成,每次击杀赚钱,敌人在到达终点时失去生命。包括至少 3 种塔类型(不同范围/伤害/攻击速度)和升级,以及简单的 UI 来放置/销售/升级塔并开始下一波;保持代码整洁和模块化,并交付一个可玩的、平衡的 MVP。包括基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)。
2、评分标准
我将提示分解为检查清单,使其不仅仅是"氛围":
- 立即运行(没有缺失部分,一次性完成)
- 固定路径 + 敌人在波次中生成
- 每次击杀金钱 + 泄漏生命减少
- 3 种塔类型(范围/伤害/速度)
- 升级工作
- UI:放置/销售/升级塔
- 开始下一波控制
- 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)
- 感觉像可交付的 MVP(而不是损坏的演示)
3、结果
Opus 4.6
总体而言,Opus 4.6 做得相当不错。
突出的地方:
- 坚实的基线 UI(不华丽,但功能正常)
- 核心循环工作:波、塔、击杀 → 金钱
- 升级 + 基本 UX 触点都在那里(甚至还有一些热键)
评分卡
- 立即运行(没有缺失部分,一次性完成) — ✅
- 固定路径 + 敌人在波次中生成 — ✅
- 每次击杀金钱 + 泄漏生命减少 — ✅
- 3 种塔类型(范围/伤害/速度) — ✅
- 升级工作 — ✅
- UI:放置/销售/升级塔 — ✅
- 开始下一波控制 — ✅
- 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) — ✅
- 感觉像可交付的 MVP — ✅
评分:9/9
Sonnet 4.5
我决定也测试 Sonnet 4.5 作为额外的基线,以更好地展示 Sonnet 家族从 4.5->4.6 的进步。我对生成质量的糟糕程度感到震惊。Sonnet 4.5 显然落后了。
我看到的:
- UI 太基本了
- 动画和整体"打磨"滞后
- 塔和敌人即使在你可以看到敌人计数在减少时也不总是显示在 UI 上
评分卡
- 立即运行(没有缺失部分,一次性完成) — ❌
- 固定路径 + 敌人在波次中生成 — ✅
- 每次击杀金钱 + 泄漏生命减少 — ✅
- 3 种塔类型(范围/伤害/速度) — ✅
- 升级工作 — ✅
- UI:放置/销售/升级塔 — ❌
- 开始下一波控制 — ✅
- 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) — ✅
- 感觉像可交付的 MVP — ✅
评分:6/9
Sonnet 4.6
Sonnet 4.6 是事情变得有趣的地方!我最喜欢的生成,但不是大幅度领先。
- UI 感觉更好,更接近典型的游戏
- 游戏玩法和运动感觉更流畅、更连贯
- 总体上它干净地达到了检查清单
在表现更好的同时,Sonnet 的价格也比 Opus 便宜近 50%。
评分卡
- 立即运行(没有缺失部分,一次性完成) — ✅
- 固定路径 + 敌人在波次中生成 — ✅
- 每次击杀金钱 + 泄漏生命减少 — ✅
- 3 种塔类型(范围/伤害/速度) — ✅
- 升级工作 — ✅
- UI:放置/销售/升级塔 — ✅
- 开始下一波控制 — ✅
- 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) — ✅
- 感觉像可交付的 MVP — ✅
评分:9/9
4、附加测试:构建 ChatGPT 克隆
由于 Sonnet 4.6 相当容易地处理了塔防游戏,我想通过让它重现 ChatGPT 来进一步推动它。同样,这是在 Converge 中完成的。
这里的提示:
创建一个功能齐全的 AI 聊天应用程序,复制 ChatGPT,具有高级功能,包括:
核心功能:
具有上下文感知和多轮对话的自然语言交流
支持带有丰富格式(粗体、斜体、代码块)的文本输入和输出
实时输入指示器和消息传递状态
用户身份验证和个人资料管理
带有搜索和导出选项的对话历史
可定制的用户设置(主题、字体大小、通知偏好)
高级功能:
处理多媒体输入(图像、音频)并生成描述性回复
允许用户引用过去对话的上下文记忆
基于用户交互自适应学习的个性化响应
用户界面设计:
干净、现代和极简主义布局,使用令人愉悦的调色板(例如,深海军蓝 #1A1F36、柔和蓝绿色 #4FB6AC、浅灰色 #F5F7FA 和白色)
具有清晰层次结构和充足留白的可读无衬线排版
为桌面、平板和移动设备优化的响应式设计
为消息转换和交互元素的流畅动画
具有键盘导航、屏幕阅读器支持和足够对比度的无障碍设计
交互和反馈:
为用户操作(发送、接收、错误)提供清晰的视觉反馈
为增强通信流程的输入指示器和已读回执
用于更快交互的快速回复建议和自动完成
确保应用程序提供直观、可靠且吸引人的对话 AI 体验,可在设备之间扩展并适应多样化的用户需求。
第一代中有很多东西起作用,缺少一些功能部分。
一件非常令人印象深刻的事情是它完美地处理了跨线程搜索。下面你会看到我提到我是湖人队的粉丝。
然后我开始了一个新的聊天,问它我喜欢哪个队,它记住了!在幕后,这一切都由 Converge 中的代理组件 提供支持
将提示转换为检查清单:
- 多轮内存(每线程 + 跨线程上下文) — ✅
- 身份验证 + 用户账户(OAuth / SSO 就绪) — ✅
- 持久对话历史(搜索 + 导出) — ✅
- 流式响应与交付状态 — ✅
- 跨线程搜索 — ❌
- 富文本 + 代码渲染 — ❌(有点)
- 多模态输入(图像 + 音频上传) — ✅
- 图像理解 — ✅
- 个性化层(自适应记忆)* 文件上传处理 — ✅
- 响应式、无障碍 UI(桌面 → 移动) — ✅
- 用户设置(主题、通知、偏好) — ❌
5、结束语
Sonnet 4.6 是一个很棒的模型。我整周都在测试它,它和 Opus 4.6 一样好,甚至可能更好,同时也更便宜。
AI 世界的变化速度是无情的!
原文链接: I Tested Sonnet 4.6 vs Opus 4.6 for Vibe Coding — Here's the Winner
汇智网翻译整理,转载请标明出处