DeepSeek v4实测:CC & Hermes

我本以为只是炒作,所以我用 Claude Code 和 Hermes Agent 都测试了一下,结果发现我错了,现在给它起了个绰号——我的"一次通过之王"

DeepSeek v4实测:CC & Hermes
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

DeepSeek v4 是悄然发布的,而且 发布页面非常简短,你可能会忍不住忽视它的能力。

DeepSeek v4 on Claude Code
图片来源:DeepSeek

我刚刚设置好我的 Hermes Agent ,DeepSeek V4 就发布了。我立刻知道这将是我编码测试的候选模型。

1、DeepSeek v4 有什么新功能?

你记得几个月前的 DeepSeek 时刻吗?这次类似,虽然缺少了 AI 媒体的炒作。

V4-Pro 拥有 1.6 万亿参数,活跃参数 49B;V4-Flash 拥有 284B 参数,活跃参数 13B。两者都有 1M token 的上下文窗口。

API 定价为:V4-Flash 每百万输入 token 收取 $0.14,每百万输出 token 收取 $0.28。

相比之下,Claude Opus 4.6 每百万输入 $15,每百万输出 $75。

输入端便宜了大约 100 倍,但对我来说,我用 Ollama Cloud 通过一个命令启动来运行测试:

DeepSeek v4 on Claude Code

我做了两个测试,一个是在现有项目上——就是那个 我用 Kimi K2.6 和 Claude Code 构建的 项目管理仪表盘。我想看看 DeepSeek V4 如何处理向一个它没有创建的代码库添加功能。

第二个是从 UI 设计开始的全新构建。

我还使用 Ollama Launch 在 Hermes Agent 上进行了测试,这使两个工具的设置都变成了单条命令。

在这篇文章中,我想分享我的发现以及将此纳入你的工作流程的独特优势。

2、什么是 DeepSeek V4?

What is DeepSeek V4?
图片来源:DeepSeek

DeepSeek 以预览版发布了 V4,包含两个模型——V4-Pro 和 V4-Flash。

两者都是混合专家(MoE)架构,具有 1M token 的上下文窗口。以下是详细信息:

  • DeepSeek V4-Pro: 1.6T 总参数,49B 活跃参数。这现在是可用的最大开放权重模型——比 Kimi K2.6(1.1T)和 GLM 5(754B)都大。
  • DeepSeek V4-Flash: 284B 总参数,13B 活跃参数。快速、高效的选项,专为大量编码工作而构建。

两个模型都在 MIT 许可下开源, 权重在 Hugging Face 上。

3、DeepSeek V4 架构

DeepSeek 在 V4 中引入了两项关键变化,这对 Claude Code 用户很重要。

混合注意力架构 — V4 结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。

简单来说,V4-Pro 在 1M 上下文下仅使用 DeepSeek V3.2 所需计算量的 27% 和 KV 缓存的 10%。这就是他们如何在成本不爆炸的情况下实现 1M token 的。

3 种思考模式 — 你可以获得三个推理级别:

  • 无思考:快速、直觉性的回答
  • 思考:仔细的逻辑分析
  • 最大思考:针对难题的最大推理努力
这与我们在 GLM 5 的思考模式中看到的类似,但 DeepSeek 在完整的 1M 上下文窗口中应用了它。

4、DeepSeek V4 基准测试

None
图片来源:DeepSeek

智能体基准测试(V4-Pro Max):

  • Terminal Bench 2.0:67.9% — 直接测量基于终端的编码,这是 Claude Code 的核心。作为参考,GLM 5 得分为 56.2%,Kimi K2.6 得分为 66.7%。
  • SWE Verified:80.6% — 真实世界的软件工程任务。
  • SWE Pro:55.4% — 高级工程问题。
  • SWE 多语言:76.2% — 处理跨仓库的 Python、JavaScript、Go 和其他语言。
  • HLE with tools:48.2% — 带工具使用的复杂推理。
  • Toolathlon:51.8% — 工具调用可靠性。

V4-Pro 的对比(最大推理):

None
图片来源:DeepSeek

DeepSeek 将 V4-Pro-Max 与 Claude Opus 4.6 Max、GPT-5.4 xHigh 和 Gemini 3.1-Pro High 进行了比较。

亮点:

  • V4-Pro 在 SimpleQA 上领先所有开源模型,验证得分为 57.9%
  • 在 Codeforces 上,V4-Pro-Max 得分 3206 — 领先于 GPT-5.4(3168),接近 Claude Opus 4.6(3052……等等,V4-Pro 实际上在这里击败了它)
  • Terminal Bench 2.0 的 67.9% 使它非常接近 Claude Opus 4.6 的数字
  • SWE Verified 的 80.6% 显示了坚实的真实世界编码能力

5、DeepSeek V4 成本

None
模型 输入(缓存命中) 输入(缓存未命中) 输出 上下文
V4-Pro $0.145 $1.74 $3.48 1M
V4-Flash $0.028 $0.14 $0.28 1M

V4-Flash 每百万输入 token $0.14 简直便宜得疯狂。作为参考,Claude Sonnet 4.6 每百万输入收费 $3,贵了 20 多倍。

而且通过 Ollama Cloud 每月 $20 的订阅,我可以访问 V4-Flash 以及其他云端模型,如 Kimi K2.6、GLM 5,现在还有 DeepSeek V4,这就是为什么我更喜欢它来进行快速测试。

重要提示: DeepSeek 将在 2026 年 7 月 24 日停用旧的 deepseek-chatdeepseek-reasoner 模型 ID。如果你正在使用这些,请更新为 deepseek-v4-prodeepseek-v4-flash

6、在 Claude Code 中设置 DeepSeek V4

None

DeepSeek V4-Flash 在 Ollama 上作为云模型可用。一条命令启动。

前提条件

在开始之前:

  • Ollama 已安装(v0.15 或更高版本)
  • Claude Code 已安装(版本 2.0.33+)
  • Node.js 18+
  • Ollama Cloud 订阅(Pro 版每月 $20)

步骤 1:更新 Ollama

检查你的版本:

ollama --version
None
如果你还没有设置,请从 ollama.com/download 获取最新版本

步骤 2:拉取 DeepSeek V4-Flash

ollama pull deepseek-v4-flash:cloud
None
云模型几秒钟就能拉取完成,因为推理在 DeepSeek 的基础设施上运行。

步骤 3:使用 DeepSeek V4 启动 Claude Code

命令如下:

ollama launch claude --model deepseek-v4-flash:cloud
None
Ollama Launch 处理环境变量;你不需要手动导出 ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN

步骤 4:验证设置

Claude Code 启动后,检查状态:

/status
None

你应该看到模型已连接并准备就绪。

我注意到一件事——Claude Code 在 /model 命令输出中重命名了一些 Anthropic 模型引用:

None
这是外观上的小问题,不是功能性问题;模型无论如何都能正常工作。

7、了解 Ollama DeepSeek 云模型

Ollama 上的 DeepSeek V4-Flash 作为云模型运行。你的提示在 DeepSeek 的服务器上处理。

关键细节:

  • deepseek-v4-flash:cloud — 284B 总参数,13B 活跃参数,远程运行
  • 1M 上下文窗口 — 整个代码库可以放入单个提示中
  • 无需本地 GPU — 所有推理都在 DeepSeek 的基础设施上进行
对于专有代码库请记住这一点。我喜欢将这个用于测试、原型设计、实验和个人项目。

8、使用 DeepSeek V4 设置 Hermes Agent

如果你读过我的 Hermes Agent 设置指南,你知道我提到过可以用一行命令运行它,所以将 DeepSeek V4 添加为后端模型很简单。

8.1 使用 DeepSeek V4 启动 Hermes

ollama launch hermes --model deepseek-v4-flash:cloud
None

Hermes Agent 使用相同的 Ollama Cloud 连接启动。

它需要你注册,在运行之前你应该更新所有依赖项,特别是如果你在 WSL 上运行这个。

最后,它运行了,你现在可以开始你的设置或测试提示:

None
1M 上下文窗口在这里很有用,因为 Hermes 跨会话维护记忆并学习你的工作流模式。

8.2 验证 Hermes 设置

Hermes 启动后,你应该看到它已连接到 deepseek-v4-flash:cloud,并显示模型和提供商信息。

现在我同时在 DeepSeek V4 上运行 Claude Code 和 Hermes Agent。

9、测试:增强 Kimi K2.6 项目

None

我正在拿 我之前用 Kimi K2.6 + Claude Code 构建的项目管理仪表盘 并使用 DeepSeek V4 添加新功能。

我想看看 DeepSeek V4 能否理解现有的代码库,跨文件维护上下文,并在不破坏已有功能的情况下添加新特性。

设置测试分支

首先,我创建了一个单独的 git 分支,以便比较结果。

git checkout -b deepseek-v4-test

项目已经有了之前测试的分支——felo-testsjoe-testsplayground

None
这个新分支保持了 DeepSeek V4 工作的隔离。如果出了问题,其他分支是干净的。

测试 1:添加暗色模式

我用 Kimi K2.6 构建的项目管理应用默认是暗色主题。

但它没有切换功能——用户无法在亮色和暗色模式之间切换。这是我给 Claude Code 上的 DeepSeek V4 的提示:
Add a dark/light mode toggle to the project management dashboard. 
Include:
- A toggle button in the header
- Persist the user's preference in local storage
- Smooth transition between modes
- Make sure all components respect the theme
None

测试结果

DeepSeek V4 首先扫描了现有的代码库。

它识别了已经在使用的 Tailwind dark 类,理解了组件结构,并在没有重写任何已有功能的情况下添加了切换功能。
None

实现如下:

None
  • 创建了一个 ThemeProvider 上下文包装器
  • 在头部添加了一个带有太阳/月亮图标的切换组件
  • 一致地使用了 Tailwind 的 dark:
  • 将偏好设置持久化到 localStorage
  • 在背景和文本颜色上添加了平滑的 CSS 过渡
None

测试 2:完整 UI 构建

我接下来做了一个全新构建测试。我从新的 ChatGPT 图像生成器获得了这个 UI 设计。

None

我给 DeepSeek v4 这张图片,连同 UI 图片:

I have a finance app UI design (image attached). Build a functional dashboard in TypeScript + React that replicates it. Use Tailwind CSS for styling and Recharts for the donut chart.
Pages/Screens to build (as tab views):

Home – Greeting header, total balance card with income/expenses, 4 quick-action buttons (Add Income, Add Expense, Transfer, Budget), spending donut chart, recent transactions list
Expenses – Total expenses header, donut chart with category breakdown, category list with percentages
Goals – My Goals / Completed tabs, goal cards with progress bars and target dates

Requirements:

Use hardcoded mock data (no backend/API)
Bottom navigation bar with: Home, Transactions, Goals, Profile
Color scheme: dark green primary (#1a5c38), white background, soft category colors matching the design
Keep components simple — one file per screen is fine
No auth, no routing library — just tab-switching state
TypeScript interfaces for data shapes (Transaction, Goal, Category)

Match the layout and visual style from the attached image as closely as possible.
None
几分钟内,我就得到了第二个构建,质量与我用其他模型如 Claude Opus 得到的相同。

下一步是测试多个智能体并发运行并处理同一个代码库。

10、结束语

在 Claude Code 上使用 DeepSeek V4 为你提供了 1M 上下文,而且对成本来说是一个很好的折中方案。

我正在使用这个工作流向现有原型的代码库添加功能,并使用并行分支测试多智能体工作流。

我启动了两个 Claude Code 实例——都运行 DeepSeek V4-Flash——在不同分支上同时处理不同的功能,但这时我不得不完成这篇文章。

我发现开源模型和前沿模型在编码方面没有区别。


原文链接: I Tried (New) DeepSeek v4 on Claude Code & Hermes Agent (This Is Wild)

汇智网翻译整理,转载请标明出处