Claude Fable 5 Benchmarks und Prompting-Leitfaden

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Was wurde veröffentlicht

Der offizielle Claude-Account kündigte Claude Fable 5 am 9. Juni 2026 als ein Modell der Mythos-Klasse an, das für den allgemeinen Gebrauch sicher gemacht wurde. Der Launch-Artikel von Anthropic besagt, dass Fable 5 jedes Modell übertrifft, das das Unternehmen zuvor allgemein verfügbar gemacht hat, wobei der Vorsprung wächst, je länger und komplexer die Aufgaben werden.

Es gibt zwei Namen, die man auseinanderhalten muss. Claude Fable 5 ist das allgemein verfügbare Modell mit Sicherheitsklassifikatoren. Claude Mythos 5teilt dieselben zugrunde liegenden Fähigkeiten, hat jedoch in einigen Bereichen die Sicherheitsvorkehrungen aufgehoben und ist auf zugelassene Project Glasswing- und Trusted-Access-Kunden beschränkt. Wenn die Systemkarte beide aufführt, hält dieser Artikel die Spalten getrennt.

Wir stellen vor: Claude Fable 5: ein Modell der Mythos-Klasse, das für den allgemeinen Gebrauch sicher gemacht wurde.
— Claude (@claudeai)9. Juni 2026

Official model IDs:
Claude Fable 5  -> claude-fable-5
Claude Mythos 5 -> claude-mythos-5

Context window: 1M tokens
Max output:     128k tokens per request
Pricing:        $10 / MTok input, $50 / MTok output
Batch pricing:  $5 / MTok input, $25 / MTok output
Launch date:    June 9, 2026

Benchmark-Snapshot

Die offizielle System Card ist die nützlichste Benchmark-Quelle, da sie die Ergebnisse von Fable 5, Mythos 5, Mythos Preview, Opus 4.8 und externen Modellen trennt. Die Ergebnisse von Fable spiegeln produktionsreife Sicherheitsvorkehrungen wider, einschließlich des Fallback-Verhaltens; daher bedeuten kleine Unterschiede zwischen Fable und Mythos nicht zwangsläufig eine Leistungslücke im zugrunde liegenden Modell.

Evaluierung	Fable 5	Mythos 5	Opus 4.8	Was gemessen wird
SWE-bench Verified	95.0%	95.5%	88.6%	500 human-verified software issues, averaged over five trials.
SWE-bench Pro	80.0%	80.3%	69.2%	Harder active-repository tasks with larger diffs and less public ground truth.
Terminal-Bench 2.1	84.3%	88.0%	82.7%	Terminal tasks in a mini-SWE-agent harness; Fable had safety fallback in 20.9% of trials.
OSWorld-Verified	85.0%	85.0%	83.4%	Live Ubuntu computer-use tasks, pass@1 averaged over five runs.
GDP.pdf	29.8%	not listed	22.5%	Dense professional PDF reasoning; Fable also led GPT-5.5 and Gemini 3.1 Pro in the system card table.
OfficeQA Pro	57.9%	not listed	48.1%	Databricks vision-based evaluation over U.S. Treasury Bulletin documents.
Toolathlon	61.7% Pass@1	61.7% Pass@1	59.9% Pass@1	108 real-world tool-use tasks across 32 applications.
MCP Atlas	83.3%	not listed	82.2%	Multi-step MCP tool-use workflows over production-like server environments.

Die Benchmark-Story besteht nicht aus einer einzigen großen Zahl. Es ist ein Muster: Fable 5 ist dort am stärksten, wo die Aufgabe langwierig, tool-lastig, multimodal, mehrdeutig oder näher an der realen Arbeit ist als ein einfacher Prompt-Antwort-Austausch. Deshalb können einfache Smoke-Tests das Potenzial unterschätzen.

Coding-Benchmarks

Software-Engineering ist das wichtigste Signal für den Launch. Anthropic berichtet, dass Fable 5 95,0 % bei SWE-bench Verified und 80,0 % bei SWE-bench Pro erreicht, während die System Card Opus 4.8 bei 88,6 % bzw. 69,2 % einordnet. Der größere Sprung zeigt sich bei agentischen Coding-Benchmarks mit langem Zeithorizont, bei denen ein Modell über viele Schritte hinweg untersuchen, patchen, testen und Fehler beheben muss.

Benchmark	Fable 5 Ergebnis	Offizieller Vergleich
FrontierCode Diamond	Fable 5: 29.3 score / 30.2 pass rate	Opus 4.8: 13.4 / 14.5; GPT-5.5: 5.7 / 6.4
FrontierCode Main	Fable 5: 46.3 score / 48.8 pass rate	Opus 4.8: 34.3 / 37.3; GPT-5.5: 25.5 / 28.2
FrontierSWE	Fable 5 ranked #1 at 2.12 mean@5	Opus 4.8 ranked #2 at 3.26; GPT-5.5 ranked #3 at 3.94
CursorBench	Fable 5 scored 72.9% at max effort	The system card says it led GPT-5.5 by 8.6 points at that model's highest published effort.

Die praktische Schlussfolgerung: Bewerten Sie Fable 5 nicht nur anhand kurzer Snippets, Code-Formatierungen oder einer Handvoll einfacher GitHub Issues. Die offizielle Dokumentation besagt, dass Teams, die die besten Ergebnisse erzielen, Fable 5 schwierigere, bisher ungelöste Probleme zuweisen. Das deckt sich mit dem Benchmark-Muster: Fable setzt sich am deutlichsten ab, wenn die Arbeit Ausdauer erfordert.

Langer Kontext und agentische Suche

Fable 5 und Mythos 5 unterstützen standardmäßig ein 1M-Token-Kontextfenster. Die Ergebnisse zum langen Kontext in der System Card beziehen sich hauptsächlich auf Mythos 5, sind aber dennoch nützlich, um zu verstehen, wofür die zugrunde liegende Modellklasse geeignet ist. Bei GraphWalks erzielte Mythos 5 einen F1-Wert von 91,1 auf dem BFS 256K-Subset und 79,4 auf dem BFS 1M-Subset, womit es vor Opus 4.8 mit 85,9 und 68,1 liegt. Auf dem Parents 1M-Subset erreichte Mythos 5 einen F1-Wert von 97,5 gegenüber 83,3 bei Opus 4.8.

Bei BrowseComp berichtet Anthropic, dass das Multi-Agent-System Mythos 5 93,3 % erreichte und dass asynchrone Sub-Agents den höchsten Wert unter den getesteten Harnesses erzielten. Die wichtige Lektion für Entwickler ist nicht einfach nur "mehr Agents verwenden". Es ist die Erkenntnis, dass die Multi-Agent-Struktur bei den schwierigen Fällen am meisten half: Die System Card besagt, dass die größten Latenzgewinne bei Problemen erzielt wurden, die bereits für frühere Claude-Durchläufe schwierig waren.

Vision und Dokumente

Anthropic bezeichnet Fable 5 als das neue State-of-the-Art-Modell für Vision-Aufgaben. Die Benchmark-Details sind fundierter als diese Schlagzeile: Fable 5 erzielte 29,8 % bei GDP.pdf, einem Benchmark für komplexe professionelle Dokumente, verglichen mit 22,5 % bei Opus 4.8, 24,9 % bei GPT-5.5 und 16,7 % bei Gemini 3.1 Pro. Bei OfficeQA Pro erreichte Fable 5 in der vision-basierten Evaluierung von Databricks 57,9 % und lag damit vor Opus 4.8 mit 48,1 %.

Die System Card berichtet zudem von starken Ergebnissen für Mythos 5 bei ChartMuseum, LAB-Bench FigQA und CharXiv Reasoning. Speziell für Fable 5 können biologie-lastige Bildaufgaben Sicherheitsvorkehrungen auslösen, daher ist die richtige Schlussfolgerung präziser: Fable 5 ist exzellent für praktische Vision-/Dokumenten-Workflows geeignet, aber einige wissenschaftliche visuelle Workflows könnten den Pfad der Sicherheitsvorkehrungen durchlaufen.

Professionelle Arbeit

Die interessanteste Benchmark-Kategorie ist die professionelle Arbeit, da sie weniger wie eine Bestenliste aussieht und eher dem entspricht, was zahlende Nutzer tatsächlich tun. Anthropic berichtet, dass Fable/Mythos 5 in 74 % der paarweisen Vergleiche des Real-World Finance v2 gegenüber Opus 4.8 bevorzugt wurde, mit einem Elo von 1.374 gegenüber 1.222 für Opus 4.8. Die Finance Agent v2-Evaluierung von Vals AI bewertete Fable mit 56,31 %, vor Opus 4.8 mit 53,92 % und GPT-5.5 mit 51,76 %.

Die Zahlen zu Recht und Werkzeugnutzung sind ebenfalls nützlich. Im Harvey's Legal Agent Benchmark berichtet die Systemkarte von 16,91 % All-Pass und 92,0 % Mean Criterion-Pass im vollständigen öffentlichen Datensatz innerhalb der internen Testumgebung von Anthropic, sowie 13,3 % All-Pass im zurückgehaltenen Datensatz von Harvey. Bei Toolathlon erzielte Fable 5 61,7 % Pass@1 bei durchschnittlich 19,8 Turns, während Opus 4.8 59,9 % Pass@1 bei 24,5 Turns erreichte.

Es gibt mindestens ein offizielles Gegenbeispiel, das man im Auge behalten sollte: Beim Vending-Bench lag der beste Endsaldo von Fable 5 bei 5.680,26 $, etwas unter den 5.787,43 $ von Opus 4.8. Genau deshalb ist die Systemkarte wichtig. Fable 5 ist nicht „bei jeder denkbaren Aufgabe strikt besser“. Es ist ein deutlich stärkerer Standard für schwierige, langwierige, agentische Arbeit, mit arbeitslastspezifischen Ausnahmen.

Wissenschaftlicher Vorbehalt

Der Launch-Beitrag und die Systemkarte beschreiben sehr starke Ergebnisse von Mythos 5 in den Biowissenschaften: Beschleunigung des Wirkstoffdesigns, neuartige hypothesengestützte molekularbiologische Forschung, Genomik-Forschung sowie Benchmark-Gewinne bei BioMysteryBench, LatchBio Bioinformatics, Strukturbiologie, ProteinGym Hard, organischer Chemie, Protokoll-Fehlerbehebung und LABBench2.

Für öffentliche Fable 5-Nutzer ist dieser Vorbehalt zentral. Die Sicherheitsvorkehrungen von Fable 5 sind im Bereich Biologie und Chemie bewusst breit gefasst, und Anthropic weist darauf hin, dass einige nützliche Aufgaben in den Biowissenschaften Klassifikatoren auslösen können. Wenn Ihr Produkt aus den Bereichen Biomedizin, Computerbiologie, Chemie oder Cyber-Sicherheit stammt, bauen Sie zuerst den Fallback-Pfad auf und gehen Sie vorsichtig mit den Benchmark-Erwartungen für Fable 5 um.

Offizielle Bilder und Diagrammdaten

Anthropic hat mit dem Launch-Artikel mehrere Grafiken veröffentlicht. Die untenstehenden Bilder sind die offiziellen gehosteten Assets, die für einen benchmark-basierten Artikel am wichtigsten sind. Ich hoste sie hier nicht erneut; die Seite verweist auf die ursprünglichen URLs von Anthropic und verlinkt den Quellenabschnitt am Ende.

**Offizielle Benchmark-Vergleichstabelle:** Anthropic's launch-page table comparing Fable 5 and Mythos 5 with other leading models. The typed tables in this article use the system card where possible.

**FrontierCode Diamond-Diagramm:** Official launch visual for Fable 5 on Cognition's FrontierCode Diamond benchmark.

**FrontierCode Main-Diagramm:** Official launch visual for Fable 5 on the FrontierCode Main subset.

**Alignment-Bewertungsdiagramm:** Anthropic's automated alignment assessment chart for Mythos 5, with Fable 5 expected to be similar because the underlying model is shared.

API, Verfügbarkeit und Preise

Claude Fable 5 ist allgemein über die Claude API, die Claude Platform auf AWS, Amazon Bedrock, Vertex AI und Microsoft Foundry verfügbar. Claude Mythos 5 ist nicht allgemein verfügbar; der Zugriff ist auf zugelassene Kunden über Project Glasswing und verwandte Kanäle für vertrauenswürdigen Zugriff beschränkt.

Die offizielle Preistabelle listet Fable 5 und Mythos 5 mit 10 $ pro Million Input-Tokens und 50 $ pro Million Output-Tokens. Prompt-Cache-Schreibvorgänge kosten 12,50 $ pro MTok für einen 5-Minuten-Cache und 20 $ pro MTok für einen 1-Stunden-Cache, während Cache-Treffer und Aktualisierungen 1 $ pro MTok kosten. Die Batch-Nutzung ist auf 5 $ für Input und 25 $ für Output pro MTok rabattiert.

Prompting für Fable 5

The Fable-specific prompting guide says the model is strongest on problems that were previously too complex, too long-running, or too ambiguous for earlier models. It also warns that prompts and skills written for prior Claude models can be too prescriptive. The migration work is therefore not "add more instructions." It is often "remove old scaffolding and let the stronger model work."

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-fable-5",
    max_tokens=64000,
    output_config={"effort": "high"},
    messages=[
        {
            "role": "user",
            "content": "Analyze this migration plan, implement the safe parts, and verify with tests."
        }
    ],
)

Der Aufwand ist jetzt der wichtigste Steuerungsfaktor. Verwenden Sie high als Standard für die meisten schwierigen Arbeiten, xhigh für fähigkeitssensible Aufgaben und medium oder low für Routinearbeiten, bei denen Latenz und Kosten wichtiger sind. Bei schwierigen Aufgaben können einzelne Turns minutenlang laufen, und autonome Durchläufe können Stunden dauern. Das bedeutet, dass Ihr Produkt Streaming, asynchrone Job-Verarbeitung, Fortschrittsanzeigen und Timeout-Einstellungen benötigt, die auf das tatsächlich verwendete Modell abgestimmt sind.

Drei Prompt-Änderungen sind am wichtigsten. Erstens: Begründen Sie Fortschrittsberichte mit tatsächlichen Werkzeugergebnissen, damit lange Läufe nicht in optimistische Status-Updates abdriften. Zweitens: Zustandsgrenzen – was das Modell bearbeiten darf, wann es nachfragen sollte und welche Aktionen außerhalb des Aufgabenbereichs liegen. Drittens: Hören Sie auf, das Modell zur Reproduktion interner Überlegungen aufzufordern. Die Dokumentation warnt, dass Prompts, die nach verborgenen Überlegungen fragen, eine Verweigerung auslösen können; wenn Sie Transparenz bei der Entscheidungsfindung benötigen, verwenden Sie zusammengefasstes adaptives Denken und ein „Send-to-User“-Tool für Fortschritts-Updates.

Sicherheitsvorkehrungen und Fallback

Fable 5 enthält Klassifikatoren für Cyber, Biologie und Chemie, Destillation sowie Reasoning Extraction. Die Dokumentation zur API-Ebene besagt, dass eine Ablehnung eine erfolgreiche HTTP 200-Antwort mit stop_reason: "refusal"ist, kein geworfener Fehler. Die stop_details.category dokumentierten cyberWerte umfassen bio, reasoning_extractionund

. server-side-fallback-2026-06-01 Das sicherste Produktionsmuster besteht darin, ein Fallback auf claude-opus-4-8 zu konfigurieren. Serverseitiges Fallback ist in der Beta-Phase über die Claude API und die Claude Platform auf AWS unter Verwendung des

Beta-Headers verfügbar; SDK-Middleware kann das clientseitige Fallback für TypeScript, Python, Go, Java und C# übernehmen.

1. Change the model ID to claude-fable-5.
2. Set output_config.effort explicitly.
3. Remove old show-your-chain-of-thought instructions.
4. Increase client timeouts and support streaming/async runs.
5. Add progress reporting grounded in tool results.
6. Add explicit scope and permission boundaries.
7. Add memory or notes for long-running tasks.
8. Configure Opus 4.8 fallback and monitor refusal events.
9. Re-run your evals on hard tasks, not only smoke tests.
10. Check the 30-day data-retention requirement before production use.

Migrations-Checkliste

FAQ

Was ist Claude Fable 5?

Claude Fable 5 ist das leistungsfähigste, allgemein verfügbare Modell von Anthropic, das am 9. Juni 2026 angekündigt wurde. Es handelt sich um ein Modell der Mythos-Klasse mit produktionsreifen Sicherheitsvorkehrungen für den allgemeinen Gebrauch.

Wie lautet die API-Modell-ID für Claude Fable 5?

Die Claude API-Modell-ID lautet claude-fable-5. Das eingeschränkte Schwestermodell ist claude-mythos-5.

Ist Claude Fable 5 dasselbe wie Claude Mythos 5?

Sie basieren auf denselben grundlegenden Fähigkeiten, aber Claude Fable 5 enthält Sicherheitsklassifikatoren. Bei Claude Mythos 5 wurden die Sicherheitsvorkehrungen in einigen Bereichen aufgehoben; es ist auf Benutzer von Project Glasswing und Anwender mit vertrauenswürdigem Zugriff beschränkt.

Wie viel kostet Claude Fable 5?

Die offizielle Preisgestaltung liegt bei 10 $ pro Million Input-Token und 50 $ pro Million Output-Token. Die Batch-Preise betragen 5 $ pro Million Input-Token und 25 $ pro Million Output-Token.

Was sind die größten Benchmark-Erfolge von Fable 5?

Die stärksten offiziellen Signale liegen in den Bereichen Long-Horizon-Coding, agentische Terminal-Arbeit, Dokumentenanalyse, Computer-Nutzung, Long-Context-Reasoning und professionelle Workflows. Fable 5 erreichte 95,0 % bei SWE-bench Verified, 80,0 % bei SWE-bench Pro, 72,9 % bei CursorBench bei maximalem Aufwand und führte FrontierCode sowohl in den Diamond- als auch in den Main-Subsets an.

Welche Änderungen sollten Entwickler beim Prompting von Fable 5 vornehmen?

Nutzen Sie den Aufwand (effort) als primäres Steuerungselement für Qualität, Latenz und Kosten, erwarten Sie längere Antwortzeiten bei komplexen Aufgaben, entfernen Sie veraltete Anweisungen zur Offenlegung des Denkprozesses (show-your-reasoning), fügen Sie explizite Grenzen hinzu, nutzen Sie Memory für lang laufende Aufgaben und konfigurieren Sie ein Fallback auf claude-opus-4-8 für abgelehnte Anfragen.

Fable 5 ist ein Modell, das Sie für Ihre schwierigsten Workflows evaluieren sollten, nicht nur für Ihre kostengünstigsten Benchmarks. Das offizielle Benchmark-Muster zeigt, dass der Vorteil bei langfristiger Autonomie, professionellen Ergebnissen, visuellem Schlussfolgern, Tool-Nutzung und Aufgabenmehrdeutigkeit zunimmt. Hier wächst auch die operative Komplexität: Kostenkontrolle, Fallback-Handling, Speicher und Observability sind wichtiger als bei kurzfristigen Chats.

Offizielle Quellen

Start von Claude Opus 4.8Das Fallback-Modell, auf das Fable 5 bei bestimmten Anfragen ausweicht.API-Handbuch für Opus 4.8Aufwand, adaptives Denken, Caching und Migrationshinweise.