DeepSeek v4实测:CC & Hermes
DeepSeek v4 是悄然发布的,而且 发布页面非常简短,你可能会忍不住忽视它的能力。
我刚刚设置好我的 Hermes Agent ,DeepSeek V4 就发布了。我立刻知道这将是我编码测试的候选模型。
1、DeepSeek v4 有什么新功能?
你记得几个月前的 DeepSeek 时刻吗?这次类似,虽然缺少了 AI 媒体的炒作。
V4-Pro 拥有 1.6 万亿参数,活跃参数 49B;V4-Flash 拥有 284B 参数,活跃参数 13B。两者都有 1M token 的上下文窗口。
API 定价为:V4-Flash 每百万输入 token 收取 $0.14,每百万输出 token 收取 $0.28。
相比之下,Claude Opus 4.6 每百万输入 $15,每百万输出 $75。
输入端便宜了大约 100 倍,但对我来说,我用 Ollama Cloud 通过一个命令启动来运行测试:
我做了两个测试,一个是在现有项目上——就是那个 我用 Kimi K2.6 和 Claude Code 构建的 项目管理仪表盘。我想看看 DeepSeek V4 如何处理向一个它没有创建的代码库添加功能。
第二个是从 UI 设计开始的全新构建。
我还使用 Ollama Launch 在 Hermes Agent 上进行了测试,这使两个工具的设置都变成了单条命令。
在这篇文章中,我想分享我的发现以及将此纳入你的工作流程的独特优势。
2、什么是 DeepSeek V4?
DeepSeek 以预览版发布了 V4,包含两个模型——V4-Pro 和 V4-Flash。
两者都是混合专家(MoE)架构,具有 1M token 的上下文窗口。以下是详细信息:
- DeepSeek V4-Pro: 1.6T 总参数,49B 活跃参数。这现在是可用的最大开放权重模型——比 Kimi K2.6(1.1T)和 GLM 5(754B)都大。
- DeepSeek V4-Flash: 284B 总参数,13B 活跃参数。快速、高效的选项,专为大量编码工作而构建。
两个模型都在 MIT 许可下开源, 权重在 Hugging Face 上。
3、DeepSeek V4 架构
DeepSeek 在 V4 中引入了两项关键变化,这对 Claude Code 用户很重要。
混合注意力架构 — V4 结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。
简单来说,V4-Pro 在 1M 上下文下仅使用 DeepSeek V3.2 所需计算量的 27% 和 KV 缓存的 10%。这就是他们如何在成本不爆炸的情况下实现 1M token 的。
3 种思考模式 — 你可以获得三个推理级别:
- 无思考:快速、直觉性的回答
- 思考:仔细的逻辑分析
- 最大思考:针对难题的最大推理努力
这与我们在 GLM 5 的思考模式中看到的类似,但 DeepSeek 在完整的 1M 上下文窗口中应用了它。
4、DeepSeek V4 基准测试
智能体基准测试(V4-Pro Max):
- Terminal Bench 2.0:67.9% — 直接测量基于终端的编码,这是 Claude Code 的核心。作为参考,GLM 5 得分为 56.2%,Kimi K2.6 得分为 66.7%。
- SWE Verified:80.6% — 真实世界的软件工程任务。
- SWE Pro:55.4% — 高级工程问题。
- SWE 多语言:76.2% — 处理跨仓库的 Python、JavaScript、Go 和其他语言。
- HLE with tools:48.2% — 带工具使用的复杂推理。
- Toolathlon:51.8% — 工具调用可靠性。
V4-Pro 的对比(最大推理):
DeepSeek 将 V4-Pro-Max 与 Claude Opus 4.6 Max、GPT-5.4 xHigh 和 Gemini 3.1-Pro High 进行了比较。
亮点:
- V4-Pro 在 SimpleQA 上领先所有开源模型,验证得分为 57.9%
- 在 Codeforces 上,V4-Pro-Max 得分 3206 — 领先于 GPT-5.4(3168),接近 Claude Opus 4.6(3052……等等,V4-Pro 实际上在这里击败了它)
- Terminal Bench 2.0 的 67.9% 使它非常接近 Claude Opus 4.6 的数字
- SWE Verified 的 80.6% 显示了坚实的真实世界编码能力
5、DeepSeek V4 成本
| 模型 | 输入(缓存命中) | 输入(缓存未命中) | 输出 | 上下文 |
|---|---|---|---|---|
| V4-Pro | $0.145 | $1.74 | $3.48 | 1M |
| V4-Flash | $0.028 | $0.14 | $0.28 | 1M |
V4-Flash 每百万输入 token $0.14 简直便宜得疯狂。作为参考,Claude Sonnet 4.6 每百万输入收费 $3,贵了 20 多倍。
而且通过 Ollama Cloud 每月 $20 的订阅,我可以访问 V4-Flash 以及其他云端模型,如 Kimi K2.6、GLM 5,现在还有 DeepSeek V4,这就是为什么我更喜欢它来进行快速测试。
重要提示: DeepSeek 将在 2026 年 7 月 24 日停用旧的 deepseek-chat 和 deepseek-reasoner 模型 ID。如果你正在使用这些,请更新为 deepseek-v4-pro 或 deepseek-v4-flash。
6、在 Claude Code 中设置 DeepSeek V4
DeepSeek V4-Flash 在 Ollama 上作为云模型可用。一条命令启动。
前提条件
在开始之前:
- Ollama 已安装(v0.15 或更高版本)
- Claude Code 已安装(版本 2.0.33+)
- Node.js 18+
- Ollama Cloud 订阅(Pro 版每月 $20)
步骤 1:更新 Ollama
检查你的版本:
ollama --version
如果你还没有设置,请从 ollama.com/download 获取最新版本
步骤 2:拉取 DeepSeek V4-Flash
ollama pull deepseek-v4-flash:cloud
云模型几秒钟就能拉取完成,因为推理在 DeepSeek 的基础设施上运行。
步骤 3:使用 DeepSeek V4 启动 Claude Code
命令如下:
ollama launch claude --model deepseek-v4-flash:cloud
Ollama Launch 处理环境变量;你不需要手动导出ANTHROPIC_BASE_URL或ANTHROPIC_AUTH_TOKEN
步骤 4:验证设置
Claude Code 启动后,检查状态:
/status
你应该看到模型已连接并准备就绪。
我注意到一件事——Claude Code 在 /model 命令输出中重命名了一些 Anthropic 模型引用:
这是外观上的小问题,不是功能性问题;模型无论如何都能正常工作。
7、了解 Ollama DeepSeek 云模型
Ollama 上的 DeepSeek V4-Flash 作为云模型运行。你的提示在 DeepSeek 的服务器上处理。
关键细节:
- deepseek-v4-flash:cloud — 284B 总参数,13B 活跃参数,远程运行
- 1M 上下文窗口 — 整个代码库可以放入单个提示中
- 无需本地 GPU — 所有推理都在 DeepSeek 的基础设施上进行
对于专有代码库请记住这一点。我喜欢将这个用于测试、原型设计、实验和个人项目。
8、使用 DeepSeek V4 设置 Hermes Agent
如果你读过我的 Hermes Agent 设置指南,你知道我提到过可以用一行命令运行它,所以将 DeepSeek V4 添加为后端模型很简单。
8.1 使用 DeepSeek V4 启动 Hermes
ollama launch hermes --model deepseek-v4-flash:cloud
Hermes Agent 使用相同的 Ollama Cloud 连接启动。
它需要你注册,在运行之前你应该更新所有依赖项,特别是如果你在 WSL 上运行这个。
最后,它运行了,你现在可以开始你的设置或测试提示:
1M 上下文窗口在这里很有用,因为 Hermes 跨会话维护记忆并学习你的工作流模式。
8.2 验证 Hermes 设置
Hermes 启动后,你应该看到它已连接到 deepseek-v4-flash:cloud,并显示模型和提供商信息。
现在我同时在 DeepSeek V4 上运行 Claude Code 和 Hermes Agent。
9、测试:增强 Kimi K2.6 项目
我正在拿 我之前用 Kimi K2.6 + Claude Code 构建的项目管理仪表盘 并使用 DeepSeek V4 添加新功能。
我想看看 DeepSeek V4 能否理解现有的代码库,跨文件维护上下文,并在不破坏已有功能的情况下添加新特性。
设置测试分支
首先,我创建了一个单独的 git 分支,以便比较结果。
git checkout -b deepseek-v4-test
项目已经有了之前测试的分支——felo-tests、joe-tests 和 playground。
这个新分支保持了 DeepSeek V4 工作的隔离。如果出了问题,其他分支是干净的。
测试 1:添加暗色模式
我用 Kimi K2.6 构建的项目管理应用默认是暗色主题。
但它没有切换功能——用户无法在亮色和暗色模式之间切换。这是我给 Claude Code 上的 DeepSeek V4 的提示:
Add a dark/light mode toggle to the project management dashboard.
Include:
- A toggle button in the header
- Persist the user's preference in local storage
- Smooth transition between modes
- Make sure all components respect the theme
测试结果
DeepSeek V4 首先扫描了现有的代码库。
它识别了已经在使用的 Tailwind dark 类,理解了组件结构,并在没有重写任何已有功能的情况下添加了切换功能。
实现如下:
- 创建了一个
ThemeProvider上下文包装器 - 在头部添加了一个带有太阳/月亮图标的切换组件
- 一致地使用了 Tailwind 的
dark:类 - 将偏好设置持久化到 localStorage
- 在背景和文本颜色上添加了平滑的 CSS 过渡
测试 2:完整 UI 构建
我接下来做了一个全新构建测试。我从新的 ChatGPT 图像生成器获得了这个 UI 设计。
我给 DeepSeek v4 这张图片,连同 UI 图片:
I have a finance app UI design (image attached). Build a functional dashboard in TypeScript + React that replicates it. Use Tailwind CSS for styling and Recharts for the donut chart.
Pages/Screens to build (as tab views):
Home – Greeting header, total balance card with income/expenses, 4 quick-action buttons (Add Income, Add Expense, Transfer, Budget), spending donut chart, recent transactions list
Expenses – Total expenses header, donut chart with category breakdown, category list with percentages
Goals – My Goals / Completed tabs, goal cards with progress bars and target dates
Requirements:
Use hardcoded mock data (no backend/API)
Bottom navigation bar with: Home, Transactions, Goals, Profile
Color scheme: dark green primary (#1a5c38), white background, soft category colors matching the design
Keep components simple — one file per screen is fine
No auth, no routing library — just tab-switching state
TypeScript interfaces for data shapes (Transaction, Goal, Category)
Match the layout and visual style from the attached image as closely as possible.
几分钟内,我就得到了第二个构建,质量与我用其他模型如 Claude Opus 得到的相同。
下一步是测试多个智能体并发运行并处理同一个代码库。
10、结束语
在 Claude Code 上使用 DeepSeek V4 为你提供了 1M 上下文,而且对成本来说是一个很好的折中方案。
我正在使用这个工作流向现有原型的代码库添加功能,并使用并行分支测试多智能体工作流。
我启动了两个 Claude Code 实例——都运行 DeepSeek V4-Flash——在不同分支上同时处理不同的功能,但这时我不得不完成这篇文章。
我发现开源模型和前沿模型在编码方面没有区别。
原文链接: I Tried (New) DeepSeek v4 on Claude Code & Hermes Agent (This Is Wild)
汇智网翻译整理,转载请标明出处