MODEL-ZOO

DeepSeek v4实测：CC & Hermes

我本以为只是炒作，所以我用 Claude Code 和 Hermes Agent 都测试了一下，结果发现我错了，现在给它起了个绰号——我的"一次通过之王"

admin

Apr 29, 2026 • 11 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

DeepSeek v4 是悄然发布的，而且发布页面非常简短，你可能会忍不住忽视它的能力。

DeepSeek v4 on Claude Code — 图片来源：DeepSeek

我刚刚设置好我的 Hermes Agent ，DeepSeek V4 就发布了。我立刻知道这将是我编码测试的候选模型。

1、DeepSeek v4 有什么新功能？

你记得几个月前的 DeepSeek 时刻吗？这次类似，虽然缺少了 AI 媒体的炒作。

V4-Pro 拥有 1.6 万亿参数，活跃参数 49B；V4-Flash 拥有 284B 参数，活跃参数 13B。两者都有 1M token 的上下文窗口。

API 定价为：V4-Flash 每百万输入 token 收取 $0.14，每百万输出 token 收取 $0.28。

相比之下，Claude Opus 4.6 每百万输入 $15，每百万输出 $75。

输入端便宜了大约 100 倍，但对我来说，我用 Ollama Cloud 通过一个命令启动来运行测试：

我做了两个测试，一个是在现有项目上——就是那个我用 Kimi K2.6 和 Claude Code 构建的项目管理仪表盘。我想看看 DeepSeek V4 如何处理向一个它没有创建的代码库添加功能。

第二个是从 UI 设计开始的全新构建。

我还使用 Ollama Launch 在 Hermes Agent 上进行了测试，这使两个工具的设置都变成了单条命令。

在这篇文章中，我想分享我的发现以及将此纳入你的工作流程的独特优势。

2、什么是 DeepSeek V4？

DeepSeek 以预览版发布了 V4，包含两个模型——V4-Pro 和 V4-Flash。

两者都是混合专家（MoE）架构，具有 1M token 的上下文窗口。以下是详细信息：

DeepSeek V4-Pro： 1.6T 总参数，49B 活跃参数。这现在是可用的最大开放权重模型——比 Kimi K2.6（1.1T）和 GLM 5（754B）都大。
DeepSeek V4-Flash： 284B 总参数，13B 活跃参数。快速、高效的选项，专为大量编码工作而构建。

两个模型都在 MIT 许可下开源， 权重在 Hugging Face 上。

3、DeepSeek V4 架构

DeepSeek 在 V4 中引入了两项关键变化，这对 Claude Code 用户很重要。

混合注意力架构 — V4 结合了压缩稀疏注意力（CSA）和重度压缩注意力（HCA）。

简单来说，V4-Pro 在 1M 上下文下仅使用 DeepSeek V3.2 所需计算量的 27% 和 KV 缓存的 10%。这就是他们如何在成本不爆炸的情况下实现 1M token 的。

3 种思考模式 — 你可以获得三个推理级别：

无思考：快速、直觉性的回答
思考：仔细的逻辑分析
最大思考：针对难题的最大推理努力

这与我们在 GLM 5 的思考模式中看到的类似，但 DeepSeek 在完整的 1M 上下文窗口中应用了它。

4、DeepSeek V4 基准测试

智能体基准测试（V4-Pro Max）：

Terminal Bench 2.0：67.9% — 直接测量基于终端的编码，这是 Claude Code 的核心。作为参考，GLM 5 得分为 56.2%，Kimi K2.6 得分为 66.7%。
SWE Verified：80.6% — 真实世界的软件工程任务。
SWE Pro：55.4% — 高级工程问题。
SWE 多语言：76.2% — 处理跨仓库的 Python、JavaScript、Go 和其他语言。
HLE with tools：48.2% — 带工具使用的复杂推理。
Toolathlon：51.8% — 工具调用可靠性。

V4-Pro 的对比（最大推理）：

DeepSeek 将 V4-Pro-Max 与 Claude Opus 4.6 Max、GPT-5.4 xHigh 和 Gemini 3.1-Pro High 进行了比较。

亮点：

V4-Pro 在 SimpleQA 上领先所有开源模型，验证得分为 57.9%
在 Codeforces 上，V4-Pro-Max 得分 3206 — 领先于 GPT-5.4（3168），接近 Claude Opus 4.6（3052……等等，V4-Pro 实际上在这里击败了它）
Terminal Bench 2.0 的 67.9% 使它非常接近 Claude Opus 4.6 的数字
SWE Verified 的 80.6% 显示了坚实的真实世界编码能力

5、DeepSeek V4 成本

模型	输入（缓存命中）	输入（缓存未命中）	输出	上下文
V4-Pro	$0.145	$1.74	$3.48	1M
V4-Flash	$0.028	$0.14	$0.28	1M

V4-Flash 每百万输入 token $0.14 简直便宜得疯狂。作为参考，Claude Sonnet 4.6 每百万输入收费 $3，贵了 20 多倍。

而且通过 Ollama Cloud 每月 $20 的订阅，我可以访问 V4-Flash 以及其他云端模型，如 Kimi K2.6、GLM 5，现在还有 DeepSeek V4，这就是为什么我更喜欢它来进行快速测试。

重要提示： DeepSeek 将在 2026 年 7 月 24 日停用旧的 deepseek-chat 和 deepseek-reasoner 模型 ID。如果你正在使用这些，请更新为 deepseek-v4-pro 或 deepseek-v4-flash。

6、在 Claude Code 中设置 DeepSeek V4

DeepSeek V4-Flash 在 Ollama 上作为云模型可用。一条命令启动。

前提条件

在开始之前：

Ollama 已安装（v0.15 或更高版本）
Claude Code 已安装（版本 2.0.33+）
Node.js 18+
Ollama Cloud 订阅（Pro 版每月 $20）

步骤 1：更新 Ollama

检查你的版本：

ollama --version

如果你还没有设置，请从 ollama.com/download 获取最新版本

步骤 2：拉取 DeepSeek V4-Flash

ollama pull deepseek-v4-flash:cloud

云模型几秒钟就能拉取完成，因为推理在 DeepSeek 的基础设施上运行。

步骤 3：使用 DeepSeek V4 启动 Claude Code

命令如下：

ollama launch claude --model deepseek-v4-flash:cloud

Ollama Launch 处理环境变量；你不需要手动导出 ANTHROPIC_BASE_URL 或 ANTHROPIC_AUTH_TOKEN

步骤 4：验证设置

Claude Code 启动后，检查状态：

/status

你应该看到模型已连接并准备就绪。

我注意到一件事——Claude Code 在 /model 命令输出中重命名了一些 Anthropic 模型引用：

这是外观上的小问题，不是功能性问题；模型无论如何都能正常工作。

7、了解 Ollama DeepSeek 云模型

Ollama 上的 DeepSeek V4-Flash 作为云模型运行。你的提示在 DeepSeek 的服务器上处理。

关键细节：

deepseek-v4-flash:cloud — 284B 总参数，13B 活跃参数，远程运行
1M 上下文窗口 — 整个代码库可以放入单个提示中
无需本地 GPU — 所有推理都在 DeepSeek 的基础设施上进行

对于专有代码库请记住这一点。我喜欢将这个用于测试、原型设计、实验和个人项目。

8、使用 DeepSeek V4 设置 Hermes Agent

如果你读过我的 Hermes Agent 设置指南，你知道我提到过可以用一行命令运行它，所以将 DeepSeek V4 添加为后端模型很简单。

8.1 使用 DeepSeek V4 启动 Hermes

ollama launch hermes --model deepseek-v4-flash:cloud

Hermes Agent 使用相同的 Ollama Cloud 连接启动。

它需要你注册，在运行之前你应该更新所有依赖项，特别是如果你在 WSL 上运行这个。

最后，它运行了，你现在可以开始你的设置或测试提示：

1M 上下文窗口在这里很有用，因为 Hermes 跨会话维护记忆并学习你的工作流模式。

8.2 验证 Hermes 设置

Hermes 启动后，你应该看到它已连接到 deepseek-v4-flash:cloud，并显示模型和提供商信息。

现在我同时在 DeepSeek V4 上运行 Claude Code 和 Hermes Agent。

9、测试：增强 Kimi K2.6 项目

我正在拿我之前用 Kimi K2.6 + Claude Code 构建的项目管理仪表盘并使用 DeepSeek V4 添加新功能。

我想看看 DeepSeek V4 能否理解现有的代码库，跨文件维护上下文，并在不破坏已有功能的情况下添加新特性。

设置测试分支

首先，我创建了一个单独的 git 分支，以便比较结果。

git checkout -b deepseek-v4-test

项目已经有了之前测试的分支——felo-tests、joe-tests 和 playground。

这个新分支保持了 DeepSeek V4 工作的隔离。如果出了问题，其他分支是干净的。

测试 1：添加暗色模式

我用 Kimi K2.6 构建的项目管理应用默认是暗色主题。

但它没有切换功能——用户无法在亮色和暗色模式之间切换。这是我给 Claude Code 上的 DeepSeek V4 的提示：

Add a dark/light mode toggle to the project management dashboard. 
Include:
- A toggle button in the header
- Persist the user's preference in local storage
- Smooth transition between modes
- Make sure all components respect the theme

测试结果

DeepSeek V4 首先扫描了现有的代码库。

它识别了已经在使用的 Tailwind dark 类，理解了组件结构，并在没有重写任何已有功能的情况下添加了切换功能。

实现如下：

创建了一个 ThemeProvider 上下文包装器
在头部添加了一个带有太阳/月亮图标的切换组件
一致地使用了 Tailwind 的 dark: 类
将偏好设置持久化到 localStorage
在背景和文本颜色上添加了平滑的 CSS 过渡

测试 2：完整 UI 构建

我接下来做了一个全新构建测试。我从新的 ChatGPT 图像生成器获得了这个 UI 设计。

我给 DeepSeek v4 这张图片，连同 UI 图片：

I have a finance app UI design (image attached). Build a functional dashboard in TypeScript + React that replicates it. Use Tailwind CSS for styling and Recharts for the donut chart.
Pages/Screens to build (as tab views):

Home – Greeting header, total balance card with income/expenses, 4 quick-action buttons (Add Income, Add Expense, Transfer, Budget), spending donut chart, recent transactions list
Expenses – Total expenses header, donut chart with category breakdown, category list with percentages
Goals – My Goals / Completed tabs, goal cards with progress bars and target dates

Requirements:

Use hardcoded mock data (no backend/API)
Bottom navigation bar with: Home, Transactions, Goals, Profile
Color scheme: dark green primary (#1a5c38), white background, soft category colors matching the design
Keep components simple — one file per screen is fine
No auth, no routing library — just tab-switching state
TypeScript interfaces for data shapes (Transaction, Goal, Category)

Match the layout and visual style from the attached image as closely as possible.

几分钟内，我就得到了第二个构建，质量与我用其他模型如 Claude Opus 得到的相同。

下一步是测试多个智能体并发运行并处理同一个代码库。

10、结束语

在 Claude Code 上使用 DeepSeek V4 为你提供了 1M 上下文，而且对成本来说是一个很好的折中方案。

我正在使用这个工作流向现有原型的代码库添加功能，并使用并行分支测试多智能体工作流。

我启动了两个 Claude Code 实例——都运行 DeepSeek V4-Flash——在不同分支上同时处理不同的功能，但这时我不得不完成这篇文章。

我发现开源模型和前沿模型在编码方面没有区别。

原文链接: I Tried (New) DeepSeek v4 on Claude Code & Hermes Agent (This Is Wild)

汇智网翻译整理，转载请标明出处