Claude Fable 5 ベンチマークおよびプロンプトガイド

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

ローンチ内容

Claude公式アカウントが発表 Claude Fable 5 2026年6月9日、一般利用向けに安全性を高めたMythosクラスのモデルとして発表されました。Anthropicのローンチ記事によると、Fable 5は同社がこれまで一般公開してきたあらゆるモデルを凌駕しており、タスクが長く複雑になるほどその差は広がるとされています。

混同しないよう、2つの名称に注意してください。 Claude Fable 5 は、安全性分類器を備えた一般公開モデルです。 Claude Mythos 5は、基盤となる能力は共通ですが、一部の領域でセーフガードが解除されており、承認されたProject Glasswingおよび信頼されたアクセス権を持つ顧客に限定されています。システムカードで両者が報告されている場合、本記事では列を分けて記載します。

Claude Fable 5の紹介：一般利用向けに安全性を高めたMythosクラスのモデル。
— Claude (@claudeai)2026年6月9日

Official model IDs:
Claude Fable 5  -> claude-fable-5
Claude Mythos 5 -> claude-mythos-5

Context window: 1M tokens
Max output:     128k tokens per request
Pricing:        $10 / MTok input, $50 / MTok output
Batch pricing:  $5 / MTok input, $25 / MTok output
Launch date:    June 9, 2026

ベンチマークスナップショット

公式システムカードは、Fable 5、Mythos 5、Mythos Preview、Opus 4.8、および外部モデルの結果を個別に示しているため、ベンチマークのソースとして最も有用です。Fableのスコアにはフォールバック動作を含む本番環境向けのセーフガードが反映されているため、FableとMythosの間のわずかな差が、必ずしも基盤モデルの能力差を意味するわけではありません。

評価	Fable 5	Mythos 5	Opus 4.8	測定内容
SWE-bench Verified	95.0%	95.5%	88.6%	500 human-verified software issues, averaged over five trials.
SWE-bench Pro	80.0%	80.3%	69.2%	Harder active-repository tasks with larger diffs and less public ground truth.
Terminal-Bench 2.1	84.3%	88.0%	82.7%	Terminal tasks in a mini-SWE-agent harness; Fable had safety fallback in 20.9% of trials.
OSWorld-Verified	85.0%	85.0%	83.4%	Live Ubuntu computer-use tasks, pass@1 averaged over five runs.
GDP.pdf	29.8%	not listed	22.5%	Dense professional PDF reasoning; Fable also led GPT-5.5 and Gemini 3.1 Pro in the system card table.
OfficeQA Pro	57.9%	not listed	48.1%	Databricks vision-based evaluation over U.S. Treasury Bulletin documents.
Toolathlon	61.7% Pass@1	61.7% Pass@1	59.9% Pass@1	108 real-world tool-use tasks across 32 applications.
MCP Atlas	83.3%	not listed	82.2%	Multi-step MCP tool-use workflows over production-like server environments.

ベンチマークのストーリーは、単一の巨大な数値で語られるものではありません。それは一つのパターンです。Fable 5は、タスクが長期的、ツールを多用するもの、マルチモーダル、曖昧なもの、あるいは単なるプロンプトと回答のやり取りよりも実際の作業に近い場合に最も強力です。そのため、単純なスモークテストではその真価が過小評価される可能性があります。

コーディングベンチマーク

ソフトウェアエンジニアリングは、今回のローンチにおける最も重要な指標です。Anthropicの報告によると、Fable 5はSWE-bench Verifiedで95.0%、SWE-bench Proで80.0%を達成しており、システムカードではOpus 4.8がそれぞれ88.6%と69.2%とされています。この大きな飛躍は、モデルが調査、修正、テスト、復旧を多段階にわたって行う必要がある、長期的なエージェント型コーディングベンチマークにおいて顕著に現れています。

ベンチマーク	Fable 5の結果	公式比較
FrontierCode Diamond	Fable 5: 29.3 score / 30.2 pass rate	Opus 4.8: 13.4 / 14.5; GPT-5.5: 5.7 / 6.4
FrontierCode Main	Fable 5: 46.3 score / 48.8 pass rate	Opus 4.8: 34.3 / 37.3; GPT-5.5: 25.5 / 28.2
FrontierSWE	Fable 5 ranked #1 at 2.12 mean@5	Opus 4.8 ranked #2 at 3.26; GPT-5.5 ranked #3 at 3.94
CursorBench	Fable 5 scored 72.9% at max effort	The system card says it led GPT-5.5 by 8.6 points at that model's highest published effort.

実践的な解釈：Fable 5を短いスニペットやコードのフォーマット、あるいは少数の簡単なGitHub issuesだけで評価しないでください。公式ドキュメントによると、最も良い成果を上げているチームは、Fable 5に対してこれまで未解決だった難易度の高い問題を与えています。これはベンチマークのパターンと一致しており、作業に粘り強さが求められる場合にFableの優位性が最も明確になります。

長大なコンテキストとエージェント型検索

Fable 5とMythos 5は、デフォルトで1Mトークンのコンテキストウィンドウをサポートしています。システムカードにおける長大なコンテキストの結果は主にMythos 5について報告されていますが、基盤となるモデルクラスの得意分野を理解する上で依然として有用です。GraphWalksにおいて、Mythos 5はBFS 256Kサブセットで91.1 F1、BFS 1Mサブセットで79.4 F1を記録し、Opus 4.8の85.9および68.1を上回りました。Parents 1Mサブセットでは、Mythos 5が97.5 F1を記録し、Opus 4.8の83.3を上回りました。

BrowseCompにおいて、Anthropicはマルチエージェント構成のMythos 5が93.3%に達し、非同期サブエージェントがテストされたハーネスの中で最高スコアを記録したと報告しています。開発者が学ぶべき重要な教訓は、単に「エージェントを増やせばよい」ということではありません。マルチエージェント構造は、困難なケースにおいて最も効果を発揮したということです。システムカードによると、最大のレイテンシ改善は、従来のClaudeの実行では困難だった問題から得られました。

ビジョンとドキュメント

AnthropicはFable 5をビジョンタスクにおける新しい最先端モデルと位置づけています。ベンチマークの詳細はその見出し以上に根拠のあるものです。Fable 5は、高密度な専門ドキュメントのベンチマークであるGDP.pdfにおいて29.8%を記録し、Opus 4.8の22.5%、GPT-5.5の24.9%、Gemini 3.1 Proの16.7%を上回りました。OfficeQA Proでは、Databricksのビジョンベースの評価においてFable 5が57.9%を記録し、Opus 4.8の48.1%を上回りました。

システムカードでは、ChartMuseum、LAB-Bench FigQA、CharXiv ReasoningにおけるMythos 5の強力な結果も報告されています。Fable 5に関しては、生物学関連の画像タスクがセーフガードをトリガーする可能性があるため、結論はより限定的になります。つまり、Fable 5は実用的なビジョン/ドキュメントワークフローには優れていますが、一部の科学的な視覚ワークフローはセーフガードのパスを通る可能性があるということです。

プロフェッショナルな業務

最も興味深いベンチマークカテゴリは専門的な業務です。これはリーダーボードのような形式よりも、実際に有料ユーザーが行っている作業に近いからです。Anthropicの報告によると、Real-World Finance v2のペア比較において、Fable/Mythos 5はOpus 4.8よりも74%の確率で選好され、EloレーティングはOpus 4.8の1,222に対し1,374を記録しました。Vals AIのFinance Agent v2評価では、Fableが56.31%で、Opus 4.8の53.92%やGPT-5.5の51.76%を上回りました。

法務およびツール利用に関する数値も有用です。HarveyのLegal Agent Benchmarkにおいて、システムカードの報告では、Anthropicの内部ハーネスを用いた公開セット全体で16.91%のall-pass、92.0%のmean criterion-passを達成し、Harveyのホールドアウトセットでは13.3%のall-passを記録しました。Toolathlonでは、Fable 5はPass@1で61.7%（平均19.8ターン）を記録し、Opus 4.8はPass@1で59.9%（平均24.5ターン）でした。

留意すべき公式の反例が少なくとも1つあります。Vending-Benchにおいて、Fable 5の最終的な最高残高は5,680.26ドルで、Opus 4.8の5,787.43ドルをわずかに下回りました。これこそがシステムカードが重要である理由です。Fable 5は「あらゆるタスクにおいて完全に優れている」わけではありません。負荷の高い長時間の自律的な作業においてはるかに強力なデフォルトとなりますが、ワークロードによっては例外も存在します。

科学分野における注意点

ローンチポストとシステムカードには、Mythos 5によるライフサイエンス分野の非常に強力な成果が記載されています。具体的には、創薬の加速、新規の分子生物学仮説の生成、ゲノミクス研究、そしてBioMysteryBench、LatchBio Bioinformatics、構造生物学、ProteinGym Hard、有機化学、プロトコル・トラブルシューティング、LABBench2におけるベンチマークの向上が挙げられます。

一般のFable 5ユーザーにとって、この注意点は極めて重要です。Fable 5のセーフガードは生物学や化学の分野で意図的に広範囲に設定されており、Anthropicは一部の有益なライフサイエンス関連タスクが分類器をトリガーする可能性があると述べています。もし製品が生物医学、計算生物学、化学、あるいはサイバーセキュリティに関連する場合は、まずフォールバックパスを構築し、Fable 5のベンチマーク結果を慎重に扱うようにしてください。

公式画像およびチャートデータ

Anthropicはローンチ記事とともにいくつかのビジュアルを公開しました。以下の画像は、ベンチマークに基づく記事において最も重要な公式ホスト済みアセットです。ここでは再ホストを行わず、ページはAnthropicの元のURLを参照し、最後にソースセクションへのリンクを記載しています。

**公式ベンチマーク比較表:** Anthropic's launch-page table comparing Fable 5 and Mythos 5 with other leading models. The typed tables in this article use the system card where possible.

**FrontierCode Diamond チャート:** Official launch visual for Fable 5 on Cognition's FrontierCode Diamond benchmark.

**FrontierCode Main チャート:** Official launch visual for Fable 5 on the FrontierCode Main subset.

**アライメント評価チャート:** Anthropic's automated alignment assessment chart for Mythos 5, with Fable 5 expected to be similar because the underlying model is shared.

API、可用性、および価格

Claude Fable 5は、Claude API、AWS上のClaude Platform、Amazon Bedrock、Vertex AI、およびMicrosoft Foundryで一般提供されています。Claude Mythos 5は一般提供されておらず、Project Glasswingおよび関連する信頼されたアクセスチャネルを通じて、承認された顧客のみが利用可能です。

公式の価格表では、Fable 5とMythos 5は入力トークン100万あたり10ドル、出力トークン100万あたり50ドルと記載されています。プロンプトキャッシュの書き込みは、5分キャッシュで100万トークンあたり12.50ドル、1時間キャッシュで100万トークンあたり20ドルです。キャッシュヒットおよびリフレッシュは100万トークンあたり1ドルです。バッチ利用は割引が適用され、入力100万トークンあたり5ドル、出力100万トークンあたり25ドルとなります。

Fable 5へのプロンプト

The Fable-specific prompting guide says the model is strongest on problems that were previously too complex, too long-running, or too ambiguous for earlier models. It also warns that prompts and skills written for prior Claude models can be too prescriptive. The migration work is therefore not "add more instructions." It is often "remove old scaffolding and let the stronger model work."

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-fable-5",
    max_tokens=64000,
    output_config={"effort": "high"},
    messages=[
        {
            "role": "user",
            "content": "Analyze this migration plan, implement the safe parts, and verify with tests."
        }
    ],
)

現在、作業の「努力量（Effort）」が主要な制御パラメータとなっています。ほとんどの困難な作業には high をデフォルトとして使用し、 xhigh は能力が求められるジョブに、そして medium または low はレイテンシとコストが優先されるルーチンワークに使用してください。困難なタスクでは、個々のターンが数分間実行されることもあり、自律的な実行は数時間に及ぶこともあります。そのため、製品にはストリーミング、非同期ジョブ処理、進捗インジケーター、そして実際に使用しているモデルに合わせたタイムアウト設定が必要です。

プロンプトの変更において最も重要な点が3つあります。第一に、進捗状況の報告を実際のツール結果に基づかせることで、長時間実行中に楽観的なステータス更新に流されないようにすること。第二に、状態の境界を明確にすること（モデルが編集可能な範囲、確認が必要なタイミング、範囲外のアクション）。第三に、内部推論の再現を求めないことです。ドキュメントでは、隠れた推論を求めるプロンプトが拒否カテゴリをトリガーする可能性があると警告されています。推論の可視性が必要な場合は、要約された適応的思考（summarized adaptive thinking）と、進捗更新用のsend-to-userツールを使用してください。

セーフガードとフォールバック

Fable 5には、サイバー、生物学、化学、蒸留、および推論抽出に関する分類器が含まれています。APIレベルの拒否に関するドキュメントでは、拒否とはHTTP 200の正常なレスポンスであり、 stop_reason: "refusal"、エラーの発生ではないとされています。ドキュメント化された stop_details.category の値には、 cyber、 bio、および reasoning_extractionが含まれます。

最も安全な本番環境のパターンは、Claude Opus 4.8へのフォールバックを構成することです。サーバーサイドのフォールバックは、Claude APIおよびAWS上のClaude Platformにて server-side-fallback-2026-06-01 ベータヘッダーを使用してベータ版として利用可能です。SDKミドルウェアを使用すれば、TypeScript、Python、Go、Java、C#におけるクライアントサイドのフォールバックを処理できます。

移行チェックリスト

1. Change the model ID to claude-fable-5.
2. Set output_config.effort explicitly.
3. Remove old show-your-chain-of-thought instructions.
4. Increase client timeouts and support streaming/async runs.
5. Add progress reporting grounded in tool results.
6. Add explicit scope and permission boundaries.
7. Add memory or notes for long-running tasks.
8. Configure Opus 4.8 fallback and monitor refusal events.
9. Re-run your evals on hard tasks, not only smoke tests.
10. Check the 30-day data-retention requirement before production use.

Fable 5は、単なる安価なベンチマークではなく、最も困難なワークフローで評価すべきモデルです。公式のベンチマークパターンによれば、長期間の自律性、専門的な成果物、視覚的推論、ツール使用、およびタスクの曖昧さにおいて優位性が高まります。これらは運用面での重要度が増す領域でもあり、短期的なチャットと比較して、コスト管理、フォールバック処理、メモリ、および可観測性がより重要となります。

FAQ

Claude Fable 5 とは何ですか？

Claude Fable 5 は、2026年6月9日に発表された Anthropic の最も高性能な一般公開モデルです。これは、汎用的な利用に向けたプロダクション・セーフガードを備えた Mythos クラスのモデルです。

Claude Fable 5 の API モデル ID は何ですか？

Claude API モデル ID は claude-fable-5 です。制限付きの兄弟モデルは claude-mythos-5 です。

Claude Fable 5 は Claude Mythos 5 と同じですか？

基盤となる能力は共通ですが、Claude Fable 5 には安全性分類器が含まれています。Claude Mythos 5 は一部の領域でセーフガードが解除されており、Project Glasswing の承認済みユーザーおよび信頼されたアクセス権を持つユーザーに限定されています。

Claude Fable 5 の料金はいくらですか？

公式価格は、入力トークン100万あたり10ドル、出力トークン100万あたり50ドルです。バッチ価格は、入力トークン100万あたり5ドル、出力トークン100万あたり25ドルです。

Fable 5 のベンチマークにおける最大の成果は何ですか？

最も強力な公式指標は、長期的なコーディング、エージェントによるターミナル操作、文書推論、コンピュータ使用、長文脈推論、および専門的なワークフローに見られます。Fable 5 は SWE-bench Verified で 95.0%、SWE-bench Pro で 80.0%、CursorBench（最大負荷時）で 72.9% を記録し、FrontierCode の Diamond および Main サブセットの両方で首位を獲得しました。

Fable 5 をプロンプトする際、開発者はどのような変更を行うべきですか？

品質・レイテンシ・コストを制御する主要な手段として effort を使用し、困難なタスクではターンが長くなることを想定してください。また、古い「思考プロセスを表示せよ」といった指示を削除し、明確な境界条件を追加し、長期的な作業にはメモリを活用し、拒否されたリクエストに対しては claude-opus-4-8 へのフォールバックを設定してください。

公式ソース

本記事では、コミュニティの投稿、プレス報道、非公式のベンチマークに関する解説を意図的に除外しています。上記の主張はすべて、以下の公式ソースに基づいています。

Claude Opus 4.8 のローンチFable 5 が一部のリクエストに対してルーティングするフォールバックモデル。Opus 4.8 API ガイドエフォート、適応的思考、キャッシング、および移行に関する注記。