Claude Fable 5 基准测试与提示词指南

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

发布内容

Claude 官方账号宣布 Claude Fable 5 于 2026 年 6 月 9 日发布，作为一款面向通用场景的安全 Mythos 级模型。Anthropic 的发布文章称，Fable 5 超越了该公司此前发布的所有模型，且随着任务长度和复杂度的增加，其领先优势进一步扩大。

有两个名称需要区分清楚。 Claude Fable 5 是带有安全分类器的通用模型。 Claude Mythos 5具备相同的底层能力，但在某些领域取消了安全限制，仅限获批的 Project Glasswing 项目及受信任的访问客户使用。当系统卡片同时提及两者时，本文将分别列出。

隆重推出 Claude Fable 5：一款面向通用场景的安全 Mythos 级模型。
— Claude (@claudeai)2026 年 6 月 9 日

Official model IDs:
Claude Fable 5  -> claude-fable-5
Claude Mythos 5 -> claude-mythos-5

Context window: 1M tokens
Max output:     128k tokens per request
Pricing:        $10 / MTok input, $50 / MTok output
Batch pricing:  $5 / MTok input, $25 / MTok output
Launch date:    June 9, 2026

基准测试快照

官方系统卡片（system card）是最有价值的基准测试来源，因为它将 Fable 5、Mythos 5、Mythos Preview、Opus 4.8 以及外部模型的结果进行了区分。Fable 的评分反映了生产环境的安全防护机制（包括回退行为），因此 Fable 与 Mythos 之间的微小差异并不总是意味着底层模型在能力上存在差距。

评估	Fable 5	Mythos 5	Opus 4.8	衡量指标
SWE-bench Verified	95.0%	95.5%	88.6%	500 human-verified software issues, averaged over five trials.
SWE-bench Pro	80.0%	80.3%	69.2%	Harder active-repository tasks with larger diffs and less public ground truth.
Terminal-Bench 2.1	84.3%	88.0%	82.7%	Terminal tasks in a mini-SWE-agent harness; Fable had safety fallback in 20.9% of trials.
OSWorld-Verified	85.0%	85.0%	83.4%	Live Ubuntu computer-use tasks, pass@1 averaged over five runs.
GDP.pdf	29.8%	not listed	22.5%	Dense professional PDF reasoning; Fable also led GPT-5.5 and Gemini 3.1 Pro in the system card table.
OfficeQA Pro	57.9%	not listed	48.1%	Databricks vision-based evaluation over U.S. Treasury Bulletin documents.
Toolathlon	61.7% Pass@1	61.7% Pass@1	59.9% Pass@1	108 real-world tool-use tasks across 32 applications.
MCP Atlas	83.3%	not listed	82.2%	Multi-step MCP tool-use workflows over production-like server environments.

基准测试的意义并非仅仅体现在一个巨大的数字上，而是一种模式：当任务涉及长流程、重工具使用、多模态、模糊性，或比单一的“提示-回答”交互更接近实际工作时，Fable 5 的表现最为强劲。这就是为什么简单的冒烟测试（smoke tests）往往会低估其能力。

编码基准测试

软件工程是此次发布中最受关注的信号。Anthropic 报告称，Fable 5 在 SWE-bench Verified 上达到 95.0%，在 SWE-bench Pro 上达到 80.0%，而系统卡片显示 Opus 4.8 分别为 88.6% 和 69.2%。在长周期的智能体编码基准测试中，这种提升更为显著，因为模型必须在多个步骤中进行调查、修补、测试和恢复。

基准测试	Fable 5 结果	官方对比
FrontierCode Diamond	Fable 5: 29.3 score / 30.2 pass rate	Opus 4.8: 13.4 / 14.5; GPT-5.5: 5.7 / 6.4
FrontierCode Main	Fable 5: 46.3 score / 48.8 pass rate	Opus 4.8: 34.3 / 37.3; GPT-5.5: 25.5 / 28.2
FrontierSWE	Fable 5 ranked #1 at 2.12 mean@5	Opus 4.8 ranked #2 at 3.26; GPT-5.5 ranked #3 at 3.94
CursorBench	Fable 5 scored 72.9% at max effort	The system card says it led GPT-5.5 by 8.6 points at that model's highest published effort.

实际解读：不要仅通过短代码片段、代码格式化或少量简单的 GitHub issues 来评估 Fable 5。官方文档指出，获得最佳成果的团队通常会给 Fable 5 分配更困难、此前未解决的问题。这与基准测试的模式相吻合：当工作需要持久性时，Fable 的优势最为明显。

长上下文与智能体搜索

Fable 5 和 Mythos 5 默认支持 1M token 的上下文窗口。系统卡片中的长上下文结果主要针对 Mythos 5 报告，但对于理解底层模型类别的擅长领域仍然很有参考价值。在 GraphWalks 测试中，Mythos 5 在 BFS 256K 子集上得分为 91.1 F1，在 BFS 1M 子集上得分为 79.4 F1，领先于 Opus 4.8 的 85.9 和 68.1。在 Parents 1M 子集上，Mythos 5 得分为 97.5 F1，而 Opus 4.8 为 83.3。

在 BrowseComp 上，Anthropic 报告称多智能体 Mythos 5 达到了 93.3%，且异步子智能体在所有测试框架中取得了最高分。对开发者而言，重要的经验不仅仅是“使用更多智能体”，而是多智能体结构在处理长尾难题时帮助最大：系统卡片显示，最大的延迟优化来自于那些对以往 Claude 版本而言本就困难的问题。

视觉与文档

Anthropic 将 Fable 5 称为视觉任务的全新 SOTA（最先进）模型。基准测试的细节比这一标题更为扎实：Fable 5 在 GDP.pdf（一项高密度的专业文档基准测试）中得分为 29.8%，相比之下 Opus 4.8 为 22.5%，GPT-5.5 为 24.9%，Gemini 3.1 Pro 为 16.7%。在 OfficeQA Pro 上，Databricks 基于视觉的评估显示 Fable 5 为 57.9%，领先于 Opus 4.8 的 48.1%。

系统卡片还报告了 Mythos 5 在 ChartMuseum、LAB-Bench FigQA 和 CharXiv Reasoning 上的强劲表现。对于 Fable 5 而言，生物学相关的图像任务可能会触发安全防护，因此更准确的结论是：Fable 5 在实际的视觉/文档工作流中表现出色，但某些科学视觉工作流可能会触发安全防护路径。

专业工作

最具参考价值的基准测试类别是专业工作，因为它看起来不像排行榜，而更像是付费用户实际的操作场景。Anthropic 报告称，在 Real-World Finance v2 成对比较中，74% 的情况下用户更倾向于使用 Fable/Mythos 5 而非 Opus 4.8，其 Elo 分数为 1,374，而 Opus 4.8 为 1,222。Vals AI 的 Finance Agent v2 评估显示，Fable 的得分为 56.31%，高于 Opus 4.8 的 53.92% 和 GPT-5.5 的 51.76%。

法律和工具使用方面的数据也很有参考意义。在 Harvey 的 Legal Agent Benchmark 中，系统卡报告显示，在 Anthropic 内部测试集的完整公共集上，全通过率为 16.91%，平均准则通过率为 92.0%；在 Harvey 的留出集（held-out set）上，全通过率为 13.3%。在 Toolathlon 测试中，Fable 5 的 Pass@1 得分为 61.7%，平均使用 19.8 轮对话；而 Opus 4.8 的 Pass@1 得分为 59.9%，平均使用 24.5 轮对话。

至少有一个值得注意的官方反例：在 Vending-Bench 测试中，Fable 5 的最佳最终余额为 5,680.26 美元，略低于 Opus 4.8 的 5,787.43 美元。这正是系统卡存在的意义。Fable 5 并非“在所有可能的任务上都绝对更强”。对于艰巨、漫长的智能体工作，它是一个更强大的默认选择，但在特定工作负载下仍存在例外。

科学领域的注意事项

发布文章和系统卡描述了 Mythos 5 在生命科学领域非常强劲的表现：药物设计加速、新颖的分子生物学假设、基因组学研究，以及在 BioMysteryBench、LatchBio Bioinformatics、结构生物学、ProteinGym Hard、有机化学、实验方案故障排除和 LABBench2 等基准测试中的提升。

对于 Fable 5 的普通用户来说，注意事项至关重要。Fable 5 在生物学和化学领域的安全防护措施被刻意设置得非常宽泛，Anthropic 表示，一些有益的生命科学任务可能会触发分类器拦截。如果你的产品涉及生物医学、计算生物学、化学或网络安全相关领域，请务必优先构建回退路径（fallback path），并谨慎对待原始 Fable 5 的基准测试预期。

官方图片与图表数据

Anthropic 在发布文章时附带了多张视觉图表。以下图片是对于基于基准测试的文章而言最重要的官方托管资源。我不会在此处重新托管这些图片；页面引用了 Anthropic 的原始 URL，并在末尾链接了来源部分。

**官方基准测试对比表:** Anthropic's launch-page table comparing Fable 5 and Mythos 5 with other leading models. The typed tables in this article use the system card where possible.

**FrontierCode Diamond 图表:** Official launch visual for Fable 5 on Cognition's FrontierCode Diamond benchmark.

**FrontierCode Main 图表:** Official launch visual for Fable 5 on the FrontierCode Main subset.

**对齐评估图表:** Anthropic's automated alignment assessment chart for Mythos 5, with Fable 5 expected to be similar because the underlying model is shared.

API、可用性与定价

Claude Fable 5 已在 Claude API、AWS 上的 Claude Platform、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 上全面可用。Claude Mythos 5 尚未全面开放；访问权限仅限于通过 Project Glasswing 及相关受信任渠道获得批准的客户。

官方定价表显示，Fable 5 和 Mythos 5 的价格为每百万输入 token 10 美元，每百万输出 token 50 美元。Prompt-cache 写入费用为：5 分钟缓存每百万 token 12.50 美元，1 小时缓存每百万 token 20 美元；缓存命中和刷新费用为每百万 token 1 美元。批量使用（Batch usage）享有折扣，输入为每百万 token 5 美元，输出为每百万 token 25 美元。

Fable 5 的提示词工程（Prompting）

The Fable-specific prompting guide says the model is strongest on problems that were previously too complex, too long-running, or too ambiguous for earlier models. It also warns that prompts and skills written for prior Claude models can be too prescriptive. The migration work is therefore not "add more instructions." It is often "remove old scaffolding and let the stronger model work."

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-fable-5",
    max_tokens=64000,
    output_config={"effort": "high"},
    messages=[
        {
            "role": "user",
            "content": "Analyze this migration plan, implement the safe parts, and verify with tests."
        }
    ],
)

“努力程度”（Effort）现在是主要的调节旋钮。对于大多数艰巨的工作，请使用 high 作为默认设置， xhigh 用于对能力要求敏感的任务，而 medium 或 low 用于对延迟和成本更敏感的常规工作。在处理艰巨任务时，单次对话轮次可能运行数分钟，自主运行可能持续数小时。这意味着你的产品需要支持流式传输、异步任务处理、进度指示器，以及与你实际使用的模型相匹配的超时设置。

有三个提示词变更最为关键。首先，将进度声明建立在实际的工具结果之上，这样长时间运行的任务就不会陷入盲目乐观的状态更新中。其次，明确状态边界：模型可以编辑什么、何时应该询问，以及哪些操作超出了范围。第三，停止要求它复现内部推理过程。文档警告称，要求展示隐藏推理过程的提示词可能会触发拒绝机制；如果你需要推理可见性，请使用总结性的自适应思维（summarized adaptive thinking）以及用于进度更新的“发送给用户”工具。

安全防护与回退机制

Fable 5 包含针对网络安全、生物学与化学、蒸馏以及推理提取的分类器。API 级别的拒绝文档指出，拒绝响应是指返回 HTTP 200 状态码的成功响应， stop_reason: "refusal"，而不是抛出错误。文档中记录的 stop_details.category 值包括 cyber， bio，以及 reasoning_extraction。

最安全的生产环境模式是配置回退至 claude-opus-4-8。服务端回退功能目前在 Claude API 和 AWS 上的 Claude Platform 中处于测试阶段，需使用 server-side-fallback-2026-06-01 beta header；SDK 中间件可以处理 TypeScript、Python、Go、Java 和 C# 的客户端回退。

迁移检查清单

1. Change the model ID to claude-fable-5.
2. Set output_config.effort explicitly.
3. Remove old show-your-chain-of-thought instructions.
4. Increase client timeouts and support streaming/async runs.
5. Add progress reporting grounded in tool results.
6. Add explicit scope and permission boundaries.
7. Add memory or notes for long-running tasks.
8. Configure Opus 4.8 fallback and monitor refusal events.
9. Re-run your evals on hard tasks, not only smoke tests.
10. Check the 30-day data-retention requirement before production use.

Fable 5 是一款旨在应对最复杂工作流的模型，而不仅仅是用于最廉价的基准测试。官方基准测试模式表明，其优势在长周期自主性、专业交付物、视觉推理、工具使用和任务模糊性方面表现最为显著。这也是运营复杂度增加的地方：成本控制、回退处理、记忆能力和可观测性比短轮次对话更为重要。

FAQ

什么是 Claude Fable 5？

Claude Fable 5 是 Anthropic 于 2026 年 6 月 9 日发布的最强通用模型。它是一款具备生产级安全防护的 Mythos 级模型，适用于各类通用场景。

Claude Fable 5 的 API 模型 ID 是什么？

Claude API 模型 ID 为 claude-fable-5。其受限的同系模型为 claude-mythos-5。

Claude Fable 5 和 Claude Mythos 5 是同一个模型吗？

它们拥有相同的底层能力，但 Claude Fable 5 包含了安全分类器。Claude Mythos 5 在某些领域移除了安全限制，仅限 Project Glasswing 项目成员及受信任的访问用户使用。

Claude Fable 5 的价格是多少？

官方定价为每百万输入 token 10 美元，每百万输出 token 50 美元。批量处理定价为每百万输入 token 5 美元，每百万输出 token 25 美元。

Fable 5 在基准测试中最大的优势是什么？

最显著的官方表现体现在长周期编码、智能体终端操作、文档推理、计算机使用、长上下文推理以及专业工作流方面。Fable 5 在 SWE-bench Verified 上得分为 95.0%，在 SWE-bench Pro 上得分为 80.0%，在 CursorBench 最大努力模式下得分为 72.9%，并在 FrontierCode 的 Diamond 和 Main 子集中均处于领先地位。

开发者在向 Fable 5 发送提示词（prompting）时应做出哪些调整？

将“努力程度”（effort）作为控制质量、延迟和成本的主要手段；预期在处理复杂任务时会有更长的交互轮次；移除旧有的“展示你的推理过程”（show-your-reasoning）指令；增加明确的边界条件；利用内存功能处理长期运行的任务；并配置在请求被拒绝时回退至 claude-opus-4-8。

官方来源

本文特意排除了社区帖子、媒体报道和非官方的基准测试评论。上述所有声明均基于以下官方来源：

Claude Opus 4.8 发布Fable 5 在处理某些请求时所使用的回退模型。Opus 4.8 API 指南工作量、自适应思维、缓存以及迁移注意事项。