Guía de benchmarks y prompting para Claude Fable 5

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Qué se ha lanzado

La cuenta oficial de Claude anunció Claude Fable 5 el 9 de junio de 2026 como un modelo de clase Mythos adaptado para un uso general seguro. El artículo de lanzamiento de Anthropic afirma que Fable 5 supera a todos los modelos que la compañía había puesto a disposición general anteriormente, aumentando la ventaja a medida que las tareas se vuelven más largas y complejas.

Hay dos nombres que debemos distinguir. Claude Fable 5 es el modelo disponible de forma general, con clasificadores de seguridad. Claude Mythos 5comparte las mismas capacidades subyacentes, pero tiene salvaguardas eliminadas en algunas áreas y está limitado a clientes aprobados de Project Glasswing y de acceso de confianza. Cuando la tarjeta de sistema informa sobre ambos, este artículo mantiene las columnas separadas.

Presentamos Claude Fable 5: un modelo de clase Mythos adaptado para un uso general seguro.
— Claude (@claudeai)9 de junio de 2026

Official model IDs:
Claude Fable 5  -> claude-fable-5
Claude Mythos 5 -> claude-mythos-5

Context window: 1M tokens
Max output:     128k tokens per request
Pricing:        $10 / MTok input, $50 / MTok output
Batch pricing:  $5 / MTok input, $25 / MTok output
Launch date:    June 9, 2026

Instantánea de benchmarks

La tarjeta de sistema oficial es la fuente de referencia más útil porque separa los resultados de Fable 5, Mythos 5, Mythos Preview, Opus 4.8 y modelos externos. Las puntuaciones de Fable reflejan las salvaguardas de producción, incluido el comportamiento de respaldo, por lo que las pequeñas diferencias entre Fable y Mythos no siempre significan una brecha de capacidad en el modelo subyacente.

Evaluación	Fable 5	Mythos 5	Opus 4.8	Qué mide
SWE-bench Verified	95.0%	95.5%	88.6%	500 human-verified software issues, averaged over five trials.
SWE-bench Pro	80.0%	80.3%	69.2%	Harder active-repository tasks with larger diffs and less public ground truth.
Terminal-Bench 2.1	84.3%	88.0%	82.7%	Terminal tasks in a mini-SWE-agent harness; Fable had safety fallback in 20.9% of trials.
OSWorld-Verified	85.0%	85.0%	83.4%	Live Ubuntu computer-use tasks, pass@1 averaged over five runs.
GDP.pdf	29.8%	not listed	22.5%	Dense professional PDF reasoning; Fable also led GPT-5.5 and Gemini 3.1 Pro in the system card table.
OfficeQA Pro	57.9%	not listed	48.1%	Databricks vision-based evaluation over U.S. Treasury Bulletin documents.
Toolathlon	61.7% Pass@1	61.7% Pass@1	59.9% Pass@1	108 real-world tool-use tasks across 32 applications.
MCP Atlas	83.3%	not listed	82.2%	Multi-step MCP tool-use workflows over production-like server environments.

La historia de los benchmarks no se resume en un solo número gigante. Es un patrón: Fable 5 es más fuerte cuando la tarea es larga, requiere muchas herramientas, es multimodal, ambigua o se acerca más al trabajo real que a un simple intercambio de pregunta-respuesta. Por eso, las pruebas de humo simples pueden subestimar su rendimiento.

Benchmarks de codificación

La ingeniería de software es la señal de lanzamiento más destacada. Anthropic informa que Fable 5 alcanza el 95.0% en SWE-bench Verified y el 80.0% en SWE-bench Pro, mientras que la tarjeta de sistema sitúa a Opus 4.8 en 88.6% y 69.2% respectivamente. El salto más grande aparece en los benchmarks de codificación agentic de largo alcance, donde un modelo debe investigar, parchear, probar y recuperarse a lo largo de muchos pasos.

Benchmark	Resultado de Fable 5	Comparativa oficial
FrontierCode Diamond	Fable 5: 29.3 score / 30.2 pass rate	Opus 4.8: 13.4 / 14.5; GPT-5.5: 5.7 / 6.4
FrontierCode Main	Fable 5: 46.3 score / 48.8 pass rate	Opus 4.8: 34.3 / 37.3; GPT-5.5: 25.5 / 28.2
FrontierSWE	Fable 5 ranked #1 at 2.12 mean@5	Opus 4.8 ranked #2 at 3.26; GPT-5.5 ranked #3 at 3.94
CursorBench	Fable 5 scored 72.9% at max effort	The system card says it led GPT-5.5 by 8.6 points at that model's highest published effort.

La lectura práctica: no evalúes Fable 5 solo con fragmentos cortos, formato de código o un puñado de problemas sencillos de GitHub. La documentación oficial indica que los equipos que obtienen mejores resultados están asignando a Fable 5 problemas más difíciles y previamente no resueltos. Eso coincide con el patrón del benchmark: Fable destaca más claramente cuando el trabajo requiere persistencia.

Contexto largo y búsqueda agentic

Fable 5 y Mythos 5 admiten una ventana de contexto de 1M de tokens de forma predeterminada. Los resultados de contexto largo en la tarjeta de sistema se reportan principalmente para Mythos 5, pero siguen siendo útiles para entender en qué destaca la clase de modelo subyacente. En GraphWalks, Mythos 5 obtuvo 91.1 F1 en el subconjunto BFS 256K y 79.4 F1 en el subconjunto BFS 1M, superando a Opus 4.8 con 85.9 y 68.1. En el subconjunto Parents 1M, Mythos 5 obtuvo 97.5 F1 frente al 83.3 de Opus 4.8.

En BrowseComp, Anthropic informa que el sistema multi-agente Mythos 5 alcanzó el 93.3% y que los subagentes asíncronos establecieron la puntuación más alta entre los entornos probados. La lección importante para el desarrollador no es solo "usar más agentes". Es que la estructura multi-agente ayudó más en los casos complejos: la tarjeta de sistema señala que las mayores ganancias de latencia provinieron de problemas que ya eran difíciles para ejecuciones previas de Claude.

Visión y documentos

Anthropic denomina a Fable 5 el nuevo modelo de vanguardia para tareas de visión. Los detalles del benchmark están más fundamentados que ese titular: Fable 5 obtuvo un 29.8% en GDP.pdf, un benchmark de documentos profesionales densos, en comparación con el 22.5% de Opus 4.8, el 24.9% de GPT-5.5 y el 16.7% de Gemini 3.1 Pro. En OfficeQA Pro, la evaluación basada en visión de Databricks situó a Fable 5 en el 57.9%, por delante del 48.1% de Opus 4.8.

La tarjeta de sistema también reporta resultados sólidos de Mythos 5 en ChartMuseum, LAB-Bench FigQA y CharXiv Reasoning. Para Fable 5 específicamente, las tareas de imagen con carga biológica pueden activar salvaguardas, por lo que la conclusión correcta es más específica: Fable 5 es excelente en flujos de trabajo prácticos de visión/documentos, pero algunos flujos de trabajo científicos visuales pueden ser redirigidos a través de la ruta de salvaguarda.

Trabajo profesional

La categoría de benchmark más interesante es el trabajo profesional, porque se parece menos a una tabla de clasificación y más a lo que hacen realmente los usuarios de pago. Anthropic informa que Fable/Mythos 5 fue preferido sobre Opus 4.8 en el 74% de las comparaciones por pares de Real-World Finance v2, con un Elo de 1,374 frente a 1,222 para Opus 4.8. La evaluación de Finance Agent v2 de Vals AI situó a Fable en un 56.31%, por encima de Opus 4.8 con un 53.92% y GPT-5.5 con un 51.76%.

Las cifras sobre aspectos legales y uso de herramientas también son útiles. En el Legal Agent Benchmark de Harvey, la tarjeta del sistema reporta un 16.91% de "all-pass" y un 92.0% de media de "criterion-pass" en el conjunto público completo dentro del arnés interno de Anthropic, además de un 13.3% de "all-pass" en el conjunto de prueba reservado de Harvey. En Toolathlon, Fable 5 obtuvo un 61.7% en Pass@1 y utilizó 19.8 turnos de media, mientras que Opus 4.8 obtuvo un 59.9% en Pass@1 y utilizó 24.5 turnos.

Existe al menos un contraejemplo oficial que vale la pena tener en cuenta: en Vending-Bench, el mejor saldo final de Fable 5 fue de $5,680.26, ligeramente por debajo de los $5,787.43 de Opus 4.8. Esa es exactamente la razón por la que la tarjeta del sistema es importante. Fable 5 no es "estrictamente mejor en todas las tareas posibles". Es un valor predeterminado mucho más sólido para trabajos complejos, largos y de tipo agente, con excepciones específicas según la carga de trabajo.

Advertencia sobre ciencia

La publicación de lanzamiento y la tarjeta del sistema describen resultados muy sólidos de Mythos 5 en ciencias de la vida: aceleración en el diseño de fármacos, hipótesis novedosas en biología molecular, investigación genómica y mejoras en los benchmarks de BioMysteryBench, LatchBio Bioinformatics, biología estructural, ProteinGym Hard, química orgánica, resolución de problemas de protocolos y LABBench2.

Para los usuarios públicos de Fable 5, la advertencia es fundamental. Las salvaguardas de Fable 5 son deliberadamente amplias en torno a la biología y la química, y Anthropic señala que algunas tareas beneficiosas en ciencias de la vida pueden activar los clasificadores. Si su producto es biomédico, de biología computacional, química o relacionado con la ciberseguridad, cree primero la ruta de respaldo y trate con cautela las expectativas de los benchmarks de Fable 5.

Imágenes oficiales y datos de gráficos

Anthropic incluyó varios elementos visuales con el artículo de lanzamiento. Las imágenes a continuación son los activos oficiales alojados que más importan para un artículo basado en benchmarks. No los estoy volviendo a alojar aquí; la página hace referencia a las URLs originales de Anthropic y enlaza la sección de fuentes al final.

**Tabla comparativa de benchmarks oficial:** Anthropic's launch-page table comparing Fable 5 and Mythos 5 with other leading models. The typed tables in this article use the system card where possible.

**Gráfico Diamond de FrontierCode:** Official launch visual for Fable 5 on Cognition's FrontierCode Diamond benchmark.

**Gráfico Main de FrontierCode:** Official launch visual for Fable 5 on the FrontierCode Main subset.

**Gráfico de evaluación de alineación:** Anthropic's automated alignment assessment chart for Mythos 5, with Fable 5 expected to be similar because the underlying model is shared.

API, disponibilidad y precios

Claude Fable 5 está disponible de forma general en la Claude API, Claude Platform en AWS, Amazon Bedrock, Vertex AI y Microsoft Foundry. Claude Mythos 5 no está disponible de forma general; el acceso está limitado a clientes aprobados a través de Project Glasswing y canales de acceso de confianza relacionados.

La tabla de precios oficial lista a Fable 5 y Mythos 5 a $10 por millón de tokens de entrada y $50 por millón de tokens de salida. Las escrituras en la caché de prompts cuestan $12.50 por MTok para una caché de 5 minutos y $20 por MTok para una caché de 1 hora, mientras que los aciertos y actualizaciones de caché cuestan $1 por MTok. El uso por lotes tiene un descuento a $5 por entrada y $25 por salida por MTok.

Creación de prompts para Fable 5

The Fable-specific prompting guide says the model is strongest on problems that were previously too complex, too long-running, or too ambiguous for earlier models. It also warns that prompts and skills written for prior Claude models can be too prescriptive. The migration work is therefore not "add more instructions." It is often "remove old scaffolding and let the stronger model work."

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-fable-5",
    max_tokens=64000,
    output_config={"effort": "high"},
    messages=[
        {
            "role": "user",
            "content": "Analyze this migration plan, implement the safe parts, and verify with tests."
        }
    ],
)

El esfuerzo es ahora el principal control de dirección. Use high como valor predeterminado para la mayoría del trabajo complejo, xhigh para trabajos sensibles a la capacidad, y medium o low para el trabajo rutinario donde la latencia y el costo importan más. En tareas difíciles, los turnos individuales pueden durar minutos y las ejecuciones autónomas pueden continuar durante horas. Eso significa que su producto necesita streaming, manejo de trabajos asíncronos, indicadores de progreso y configuraciones de tiempo de espera que coincidan con el modelo que está utilizando realmente.

Tres cambios en los prompts son los más importantes. Primero, base las afirmaciones de progreso en resultados reales de herramientas para que las ejecuciones largas no deriven en actualizaciones de estado optimistas. Segundo, establezca límites: qué puede editar el modelo, cuándo debe preguntar y qué acciones están fuera de su alcance. Tercero, deje de pedirle que reproduzca el razonamiento interno. La documentación advierte que los prompts que solicitan razonamiento oculto pueden activar una categoría de rechazo; si necesita visibilidad del razonamiento, utilice pensamiento adaptativo resumido y una herramienta de envío al usuario para actualizaciones de progreso.

Salvaguardas y respaldo

Fable 5 incluye clasificadores sobre ciberseguridad, biología y química, destilación y extracción de razonamiento. La documentación de rechazos a nivel de API indica que un rechazo es una respuesta HTTP 200 exitosa con stop_reason: "refusal", no un error lanzado. Los valores stop_details.category documentados incluyen cyber, bio, y reasoning_extraction.

El patrón de producción más seguro es configurar un fallback a Claude Opus 4.8. El fallback del lado del servidor está disponible en versión beta en la API de Claude y en Claude Platform en AWS utilizando el server-side-fallback-2026-06-01 encabezado beta; el middleware del SDK puede manejar el fallback del lado del cliente para TypeScript, Python, Go, Java y C#.

Lista de verificación de migración

1. Change the model ID to claude-fable-5.
2. Set output_config.effort explicitly.
3. Remove old show-your-chain-of-thought instructions.
4. Increase client timeouts and support streaming/async runs.
5. Add progress reporting grounded in tool results.
6. Add explicit scope and permission boundaries.
7. Add memory or notes for long-running tasks.
8. Configure Opus 4.8 fallback and monitor refusal events.
9. Re-run your evals on hard tasks, not only smoke tests.
10. Check the 30-day data-retention requirement before production use.

Fable 5 es un modelo para evaluar en su flujo de trabajo más complejo, no solo en su benchmark más económico. El patrón de benchmark oficial indica que la ventaja aumenta con la autonomía de largo alcance, los entregables profesionales, el razonamiento visual, el uso de herramientas y la ambigüedad de las tareas. Ahí es también donde crece la superficie operativa: el control de costos, la gestión de fallback, la memoria y la observabilidad son más importantes que en el chat de turnos cortos.

FAQ

¿Qué es Claude Fable 5?

Claude Fable 5 es el modelo más capaz de Anthropic lanzado al público general, anunciado el 9 de junio de 2026. Es un modelo de clase Mythos con salvaguardas de producción para uso general.

¿Cuál es el ID del modelo de la API de Claude Fable 5?

El ID del modelo de la API de Claude es claude-fable-5. El modelo hermano restringido es claude-mythos-5.

¿Es Claude Fable 5 lo mismo que Claude Mythos 5?

Comparten las mismas capacidades subyacentes, pero Claude Fable 5 incluye clasificadores de seguridad. Claude Mythos 5 tiene las salvaguardas eliminadas en algunas áreas y está limitado a usuarios aprobados de Project Glasswing y de acceso confiable.

¿Cuánto cuesta Claude Fable 5?

El precio oficial es de $10 por millón de tokens de entrada y $50 por millón de tokens de salida. El precio por lotes (batch) es de $5 por millón de tokens de entrada y $25 por millón de tokens de salida.

¿Cuáles son las mayores victorias de Fable 5 en benchmarks?

Las señales oficiales más fuertes se encuentran en la codificación de largo alcance, el trabajo en terminal con agentes, el razonamiento de documentos, el uso de computadoras, el razonamiento de contexto largo y los flujos de trabajo profesionales. Fable 5 obtuvo un 95.0% en SWE-bench Verified, 80.0% en SWE-bench Pro, 72.9% en CursorBench con esfuerzo máximo, y lideró FrontierCode tanto en los subconjuntos Diamond como Main.

¿Qué cambios deben hacer los desarrolladores al realizar prompts para Fable 5?

Utilice el esfuerzo como el control principal de calidad-latencia-costo, espere turnos más largos en tareas difíciles, elimine las instrucciones antiguas de "mostrar su razonamiento", añada límites explícitos, utilice la memoria para trabajos de larga duración y configure el respaldo (fallback) a claude-opus-4-8 para solicitudes rechazadas.

Fuentes oficiales

Este artículo excluye intencionalmente publicaciones de la comunidad, cobertura de prensa y comentarios de benchmarks no oficiales. Todas las afirmaciones anteriores se basan en estas fuentes oficiales:

Lanzamiento de Claude claude-opus-4-8El modelo de fallback al que Fable redirige algunas solicitudes.Guía de la API de claude-opus-4-8Esfuerzo, pensamiento adaptativo, almacenamiento en caché y notas de migración.