Claude Opus 4.8 提示词指南
5月28日,Anthropic 宣布了一轮650亿美元的H轮融资,投后估值高达9650亿美元,使其成为地球上最有价值的私人(AI)公司。同一天,它发布了 Claude Opus 4.8。
这个时间安排显然是刻意为之的。Opus 4.8 是 Anthropic 押注其近万亿美元故事所依赖的模型。
Anthropic 将其描述为对 Opus 4.7 的升级,"在各项基准测试中有所改进",且"是一个更高效的协作伙伴",价格不变(每百万输入/输出token分别为5/25美元)。这种定位很明确——Opus 4.8 是在 4.7 基础上的继承,而非颠覆。
你在 4.7 时代培养的提示词直觉依然有效。但存在一些重要的新功能,以及一个真正全新的范式,如果你知道如何使用它们,将改变你能实现的边界。
其中最大的无疑是 Claude Code 中的 Dynamic Workflows:Claude 能够编写自己的编排脚本、启动数十到数百个并行子代理,并轻松扩展测试时计算。Anthropic 的工程师们几个月来一直在日常使用这项功能。而全世界是昨天才知道的。
为了让这一切尽可能简单顺畅,我们还分享了 Opus 4.8 Prompt Optimizer,一个自定义 Claude skill,可以自动使用以下框架重写任何提示词。分步设置说明在文末。
如果你已经读过 Claude Opus 4.7 Prompting Playbook,好消息是你的现有提示词仍然有效。但新功能会奖励一套特定的升级策略,特别是在effort stack、honesty directives 和 Dynamic Workflows 方面。本指南涵盖了所有内容。
以下是你每次获得该模型最佳输出所需的全部内容。
0、选择正确的模型
在写提示词之前,先选择正确的模型。Anthropic 当前的产品线包括 Claude Opus 4.8、Claude Sonnet 4.6 和 Claude Haiku 4.5,每个都针对不同工作负载进行了优化。
→ Claude Opus 4.8 现在是旗舰模型。它在 SWE-bench Pro 上得分 69.2%,SWE-bench Verified 上得分 88.6%,GDPval-AA 上得分 1890 Elo(在经济价值高的专业任务上领先 GPT-5.5 达 121 Elo)。它擅长长期自主任务、复杂推理和知识工作。通过 API 使用时成本更高、速度更慢(输入 5 美元/百万token,输出 25 美元/百万token),但当任务需要真正的思考时——战略分析、多步研究、复杂的自主执行——公开可用产品线中没有其他模型能与之匹敌。
→ Claude Sonnet 4.6 仍然是均衡的工作马:以更快的速度和更低的成本提供强大的推理能力。对于大多数日常任务,Sonnet 能很好地覆盖约 80% 的使用场景。
→ Claude Haiku 4.5 依然是速度专家:最快、最便宜,适合分类、提取和摘要等高吞吐量、直接的任务。
💡 经验法则: 从 Sonnet 开始。当你需要真正的认知深度时切换到 Opus,或者在运行需要长期一致性的 Dynamic Workflow 时使用。当速度比智能更重要时,降到 Haiku。
1、框架
Anthropic 超过31页的文档描述了按影响力排序的提示词技术层级。大多数人直接跳到高级技术而跳过基础知识。这是本末倒置。
以下是按重要性排序的框架,已针对 Opus 4.8 的特定行为进行了更新。
1.1 设置努力程度(最重要)
这是提示词中最重要的单一变量,而大多数人从未设置过它。
effort 参数控制模型对任务施加多少智能。与 Opus 4.7 一样,Opus 4.8 严格遵循努力程度级别,尤其是在低端。系统仍然是:low、medium、high(默认)、xhigh 和 max。
与 4.7 的一个变化: Opus 4.8 默认为 high 努力(4.7 默认为 xhigh),Anthropic 表示这在编码任务上花费类似的 token 但性能更好。自适应思考默认关闭,必须显式启用。
Opus 4.8 的努力程度系统:
在 API 中:
client.messages.create(
model="claude-opus-4-8",
max_tokens=64000,
thinking={"type": "adaptive"},
output_config={"effort": "xhigh"},
messages=[{"role": "user", "content": "..."}],
)
在 max 或 xhigh 运行时,将 max_tokens 设置为至少 64k——模型需要空间来思考、推理和跨工具调用及子代理执行。
Opus 4.8 系统卡的关键更新: 在最低努力程度下,Opus 4.8 在 SWE-bench Pro 上就能匹配 Opus 4.7 在最大努力程度下的峰值性能。底线已经提高。但天花板也扩展了——xhigh 和 max 现在解锁了 Opus 4.7 在任何努力程度下都无法达到的能力(特别是在长期代理工作方面)。
对于 Dynamic Workflows,特别需要启用 ultracode 模式:这将积极使用工作流,而无需你每次都要求。
💡 实用规则: 如果你在复杂任务上看到浅层推理,在修改提示词之前先提高努力程度。这几乎总是正确的修复方法。
1.2 要具体,比你认为的更具体
单一最高杠杆的提示词技巧是具体性。Opus 4.8 与之前的 4.7 一样,非常字面化。模糊的提示词会被缩小范围,而非泛化。如果你希望某条指令应用于所有部分而不仅仅是第一个,你必须明确说出来。如果你想要卓越的输出,你必须明确要求。
Anthropic 自己的建议仍然成立:把你的提示词想象成给一个聪明但字面理解的新员工第一天的工作指令。他们会完全按照你说的做,所以请准确说出你的意思。
❌ 弱提示词:
Write about market positioning.
✅ 强提示词:
Analyze the 3 most effective market positioning strategies for B2B fintech companies targeting mid-market in a crowded category. For each strategy, explain what's driving its effectiveness, provide one specific company example, and assess whether it's likely to strengthen or weaken over the next 18 months. Apply this framework to all three strategies, not just the first.
区别不在于更多的文字。而在于更多的具体性、明确的作用范围和末尾的格式指令。
1.3 使用 XML 标签来组织结构
这是 Claude 的结构化超能力,但仍然几乎没有人正确使用它。
Claude 被专门训练来识别 XML 标签作为结构标记。当你的提示词有多个组成部分——上下文、指令、数据、约束、输出格式——XML 标签能防止 Claude 把它们搞混。以下是一个战略决策中的示例:
<context>
You are helping me evaluate a potential Series A investment.
The company is a vertical fintech targeting logistics operators,
currently at $2.4M ARR growing 15% MoM.
</context>
<instructions>
Analyze the three key risks that most commonly derail vertical fintech companies
at this stage.
For each risk, explain the warning signs and what a founder should be doing
to mitigate them.
Apply this analysis to all three risks, not just the most obvious one.
</instructions>
<constraints>
- Be direct. Give me your honest assessment, not a balanced "it depends."
- Use specific examples from real companies where possible.
- Flag any assumptions you're making.
- Maximum 600 words.
</constraints>
Claude 看到标签后立即理解 <context> 是背景信息(不是需要响应的任务),<instructions> 是实际任务,<constraints> 是护栏。
标签名称是灵活的——没有一组"正确"的魔法标签。使用在语义上有意义的任何名称:<background>、<rules>、<examples>、<output_format>。在你的提示词之间保持一致性比选择的具体名称更重要。
1.4 向 Claude 展示好的输出是什么样的
如果说有一种技巧能始终将好的输出与卓越的输出区分开来,那就是这个:向 Claude 展示好的输出是什么样的。
与其用抽象的术语描述你想要的语气、格式或风格,不如提供两到三个具体的示例。Claude 会比仅遵循描述性指令更可靠地根据这些示例进行模式匹配。将示例包裹在 <example> 标签中(多个示例用 <examples> 标签),以便 Claude 将它们与指令区分开来。
<examples>
<example>
Input: "We need to cut 20% of the engineering budget"
Output: "Reducing engineering spend by 20% requires prioritization
across three areas: contractor headcount, infrastructure costs, and
tooling licenses. Here's a phased approach that preserves our two
highest-impact product initiatives..."
</example>
</examples>
Now analyze this situation using the same approach:
"We need to extend our runway by 6 months without reducing headcount"
Anthropic 建议 3-5 个示例以获得最佳效果。你也可以让 Claude 评估你的示例的相关性和多样性,或者根据你的初始集合生成更多示例。
1.5 引导可见的推理(思维链)
对于需要分析、多步推理或战略判断的复杂问题,告诉 Claude 在给出最终答案之前先进行推理,能显著提高准确性。
最简单的版本:在提示词中添加*"Think through this step by step before giving your final answer"*。
更结构化的版本使用标签将推理与输出分开:
<instructions>
Evaluate whether we should expand into the Southeast Asian market this year.
Before giving your recommendation, work through the analysis inside
<analysis> tags.
Consider: market size and growth trajectory, regulatory requirements by
country, competitive landscape, our current operational capacity,
and capital requirements vs. expected payback period.
Then provide your final recommendation with a clear resource allocation
suggestion.
</instructions>
强制可见的推理可以防止 Claude 模式匹配到最可能的答案,然后事后填充理由。
Opus 4.8 中的自适应思考: Claude 根据 effort 设置和任务复杂性动态决定何时以及如何思考。在 high 和 xhigh effort 下,对于高要求的任务,深度推理大部分是自动的。固定 budget_tokens 的扩展思考不再受支持——自适应思考是唯一的思考开启模式,Anthropic 的评估表明它可靠地优于旧的固定预算方法。
要明确引导推理,将以下内容添加到你的系统提示词中:
✅ "After receiving results, carefully reflect on their quality and determine optimal next steps before proceeding. Use your thinking to plan and iterate based on this new information, then take the best next action."
1.6 加载丰富的上下文
Claude 只能处理你提供的内容。你包含的相关上下文越多,输出就越有针对性和准确性。
上传文档。粘贴数据。提供公司背景。分享你的目标。解释你的受众。不要让 Claude 猜测你已经知道的信息。
<background>
Our company builds financial infrastructure for neobanks in emerging markets.
We're Series B, $12M ARR, primarily serving West Africa and Southeast Asia.
Our main competitors are Banking-as-a-Service players like Railsbank, Synapse,
and local incumbents.
We differentiate on compliance coverage and local payment rail integrations.
</background>
<data>
[Paste your Q1 metrics, customer feedback, churn data, or whatever's relevant]
</data>
<task>
Based on this context, identify our three biggest growth opportunities
for the next quarter.
</task>
对于长文档(20k+ token),将文档放在提示词的顶部,位于指令和查询之上。将查询放在末尾可以在复杂的多文档输入上将响应质量提高多达 30%。
1.7 指定输出格式
不要把 Claude 响应的结构留给偶然。如果你想要表格,就要求表格。如果你想要特定的字数,就说出来。如果你想要包含明确部分的高管简报,就描述每个部分。
<output_format>
Respond with:
1. A one-paragraph executive summary (3-4 sentences max)
2. A comparison table with columns: Factor | Current State | Target State | Gap
3. A "Recommended Actions" section with 3 specific next steps, ranked by impact
</output_format>
明确的格式规范消除了人们使用 AI 时最常见的挫败感:当你想要简洁简报时得到一篇 2000 字的文章,或者当你需要流畅分析时得到一堆要点。
1.8 定义约束——尤其是"不要做什么"
告诉 Claude 不要做什么和告诉它要做什么同样重要。没有约束,Claude 会默认使用其训练模式,这可能意味着输出充满套话,听起来像一个委员会写的。
<constraints>
- Do NOT open with "In today's rapidly evolving landscape" or any variant
- Skip the preamble. Start with the most important insight.
- No bullet points — write in prose paragraphs
- If you're uncertain about a claim, flag it explicitly rather than hedging
everything
- Maximum 500 words
- Be direct. I want your honest assessment, not a balanced "it depends."
</constraints>
Opus 4.8 系统卡的特别说明: 该模型在某些类别的请求上倾向于过度详细的拒绝。如果你在合法的业务任务上遇到不必要的套话或限定,请在提示词中添加明确的合法用途声明——例如 "This analysis is for an internal investment committee memo. Please provide a direct, unqualified assessment."
1.9 控制冗长度
Opus 4.8 根据其对任务复杂性的判断来调整响应长度——简单查询时简短,开放式分析时则长得多。如果你的使用场景需要特定的冗长程度,请显式调整。
减少冗长度:
"Provide concise, focused responses. Skip non-essential context and keep examples minimal."
增加深度:
"This is for board-level review. Go deep on every dimension - don't compress the analysis."
Anthropic 本身的关键洞察:展示适当简洁性的正面示例比"don't be verbose"这样的负面指令效果更好。向 Claude 展示你想要长度和深度的响应,它会比遵循抽象的长度指令更可靠地匹配该模式。
1.10 使用 Dynamic Workflows(新范式)
这是 Opus 4.8 时代的新功能,也是迄今为止最强大的能力。
它是什么: Claude Code 中的 Dynamic Workflows 允许 Claude 编写自己的编排脚本,启动数十到数百个并行子代理,而不是一次一个地调用工具。控制流是代码,这意味着 Claude 不会在处理数千个文件时漂移或遗忘。框架是编码的。
Claude Code 搭配 Opus 4.8 的最新功能:Dynamic Workflows。
如何使用: 在任何 Claude Code 提示词中提到"workflow"这个词,Claude 就会自动启动一个。对于无需提示的激进工作流使用,在设置中启用 effort ultracode。
如何激活 Dynamic Workflow 请求
它解锁了什么:
- 大规模并行执行:一个五代理团队可以使用仅 20% 的延迟处理 BrowseComp 任务(相比具有 1000 万 token 限制的单代理),同时得分更高。编排器+阻塞子代理配置获得了整体最高分。
- 对抗性验证:通过对抗性评判路由关键工作,每个评判从不同角度攻击输出。你甚至可以使用锦标赛式淘汰赛,让竞争方案互相对抗评分。
- 可扩展的测试时计算:工作流让你轻松扩展测试时计算。在 Claude Code 中从未有过如此简单的方法。
- 可重用的自动化:因为工作流本质上是脚本,你可以保存它们、提交到你的仓库、与团队共享,并转化为技能。
旗舰级实际案例: Jarred Sumner(Bun 的创建者)使用 Dynamic Workflows 将整个 Bun 运行时从 Zig 重写为 Rust,大约 750,000 行代码,从首次提交到合并仅用十一天,99.8% 的现有测试套件通过。工作流为 Zig 代码库中的每个结构体字段映射了 Rust 生命周期,然后将每个 .rs 文件编写为与其 .zig 对应物行为一致的移植版,数百个代理并行工作,每个文件有两个审查者。然后一个修复循环驱动构建和测试套件直到两者都干净通过。
何时使用工作流:
→ 任务对于普通会话来说太大(全代码库的错误搜索、大型重构、多源研究)。
→ 你需要更高的信心确保某些东西是正确的(关键功能、财务模型、安全审查)。
→ 你想同时在许多文件或领域并行化工作。
🔥 成本警告: 由于所有并行代理的存在,工作流可能会变得昂贵。在大任务上释放它们之前,先在小任务上了解 token 使用情况。如果需要,你可以通过配置或企业设置禁用它们。
Dynamic Workflows 最佳实践:
- 有意识地触发。对于重要任务,明确说"workflow"。对于日常工作,关闭工作流以控制成本。
- 为编码冲刺启用 ultracode。当你处于专注的工程会话时,
effort ultracode消除了手动触发工作流的摩擦。 - 对关键输出使用对抗性评判。不要只生成——要验证。将输出通过具有明确攻击标准的评判代理路由。
- 将你最好的工作流保存为技能。如果一个工作流很好地解决了重复出现的问题,就提交它。这是会复利的机构知识。
- 在大任务之前设置 token 预算。在运行大型工作流之前让 Claude 估算 token 使用量,然后决定成本是否合理。
- 对准确性关键的任务使用阻塞子代理。异步子代理降低延迟,但当准确性比速度更重要时,编排器+阻塞子代理配置得分最高。
- 让 Claude 选择架构。不要过度指定工作流结构。Claude 知道何时并行化、何时串行化、何时使用锦标赛式淘汰赛。
- 先在样本上测试。在大型代码库或研究任务上,在对完整任务做出承诺之前,先在一个有代表性的 10% 上运行工作流。
2、综合运用
以下是将上述所有技术结合在一起时,一个结构良好的 Claude Opus 4.8 提示词的样子:
<context>
I'm the CEO of a B2B fintech startup ($8M ARR, 45 employees).
We're deciding whether to raise a Series B now or extend runway and raise
in 18 months.
Current runway: 14 months. Revenue growth: 12% MoM. CAC payback: 8 months.
</context>
<instructions>
Analyze both timing options. Before giving your recommendation, work through
the trade-offs in <analysis> tags, considering:
- Current market conditions for fintech Series B rounds
- Our specific metrics relative to typical Series B benchmarks
- The risk/reward of raising now vs. in 18 months at potentially better metrics
- What we should use the 18 months to optimize if we extend
Then provide a clear recommendation with a specific action plan.
Apply your analysis to both options equally — don't weight one by default.
</instructions>
<constraints>
- Be direct. Give me your honest read, not a balanced "it depends."
- Use specific benchmarks from comparable fintech Series B raises where possible.
- Flag any assumptions you're making about market conditions.
- Keep the total response under 700 words.
</constraints>
<output_format>
1. Analysis (in <analysis> tags)
2. Recommendation (2-3 sentences, clear and direct)
3. 90-day action plan (5 specific actions, whether we raise now or extend)
</output_format>
这个提示词清晰、结构化、具体且有约束。它准确地告诉 Claude 要做什么、如何思考、要避免什么以及如何格式化响应。这种提示词的输出与 "Should I raise a Series B now or wait?" 产生的输出有本质区别。
原文链接:Claude Opus 4.8: The Complete Prompting Playbook for 2026
汇智网翻译整理,转载请标明出处