Guia de Benchmarks e Prompting do Claude Fable 5

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

O que foi lançado

A conta oficial do Claude anunciou o Claude Fable 5 em 9 de junho de 2026 como um modelo da classe Mythos tornado seguro para uso geral. O artigo de lançamento da Anthropic afirma que o Fable 5 supera todos os modelos que a empresa disponibilizou anteriormente, com a vantagem aumentando à medida que as tarefas se tornam mais longas e complexas.

Há dois nomes para manter em mente. Claude Fable 5 é o modelo amplamente disponível, com classificadores de segurança. Claude Mythos 5compartilha as mesmas capacidades subjacentes, mas possui salvaguardas removidas em algumas áreas e é limitado ao Project Glasswing aprovado e a clientes com acesso confiável. Quando o system card reporta ambos, este artigo mantém as colunas separadas.

Apresentando o Claude Fable 5: um modelo da classe Mythos tornado seguro para uso geral.
— Claude (@claudeai)9 de junho de 2026

Official model IDs:
Claude Fable 5  -> claude-fable-5
Claude Mythos 5 -> claude-mythos-5

Context window: 1M tokens
Max output:     128k tokens per request
Pricing:        $10 / MTok input, $50 / MTok output
Batch pricing:  $5 / MTok input, $25 / MTok output
Launch date:    June 9, 2026

Snapshot de Benchmark

O system card oficial é a fonte de benchmark mais útil porque separa os resultados do Fable 5, Mythos 5, Mythos Preview, Opus 4.8 e modelos externos. As pontuações do Fable refletem salvaguardas de produção, incluindo comportamento de fallback, portanto, pequenas diferenças entre o Fable e o Mythos nem sempre significam uma lacuna de capacidade no modelo subjacente.

Avaliação	Fable 5	Mythos 5	Opus 4.8	O que mede
SWE-bench Verified	95.0%	95.5%	88.6%	500 human-verified software issues, averaged over five trials.
SWE-bench Pro	80.0%	80.3%	69.2%	Harder active-repository tasks with larger diffs and less public ground truth.
Terminal-Bench 2.1	84.3%	88.0%	82.7%	Terminal tasks in a mini-SWE-agent harness; Fable had safety fallback in 20.9% of trials.
OSWorld-Verified	85.0%	85.0%	83.4%	Live Ubuntu computer-use tasks, pass@1 averaged over five runs.
GDP.pdf	29.8%	not listed	22.5%	Dense professional PDF reasoning; Fable also led GPT-5.5 and Gemini 3.1 Pro in the system card table.
OfficeQA Pro	57.9%	not listed	48.1%	Databricks vision-based evaluation over U.S. Treasury Bulletin documents.
Toolathlon	61.7% Pass@1	61.7% Pass@1	59.9% Pass@1	108 real-world tool-use tasks across 32 applications.
MCP Atlas	83.3%	not listed	82.2%	Multi-step MCP tool-use workflows over production-like server environments.

A história do benchmark não se resume a um único número gigante. É um padrão: o Fable 5 é mais forte onde a tarefa é longa, intensiva em ferramentas, multimodal, ambígua ou mais próxima do trabalho real do que uma simples troca de prompt e resposta. É por isso que testes de fumaça simples podem subestimá-lo.

Benchmarks de codificação

Engenharia de software é o sinal de lançamento mais forte. A Anthropic relata que o Fable 5 atinge 95,0% no SWE-bench Verified e 80,0% no SWE-bench Pro, enquanto o system card coloca o Opus 4.8 em 88,6% e 69,2%, respectivamente. O salto maior aparece em benchmarks de codificação agentic de longo prazo, onde um modelo deve investigar, corrigir, testar e recuperar ao longo de várias etapas.

Benchmark	Resultado do Fable 5	Comparação oficial
FrontierCode Diamond	Fable 5: 29.3 score / 30.2 pass rate	Opus 4.8: 13.4 / 14.5; GPT-5.5: 5.7 / 6.4
FrontierCode Main	Fable 5: 46.3 score / 48.8 pass rate	Opus 4.8: 34.3 / 37.3; GPT-5.5: 25.5 / 28.2
FrontierSWE	Fable 5 ranked #1 at 2.12 mean@5	Opus 4.8 ranked #2 at 3.26; GPT-5.5 ranked #3 at 3.94
CursorBench	Fable 5 scored 72.9% at max effort	The system card says it led GPT-5.5 by 8.6 points at that model's highest published effort.

A leitura prática: não avalie o Fable 5 apenas em pequenos trechos, formatação de código ou em um punhado de problemas fáceis do GitHub. A documentação oficial diz que as equipes que obtêm os melhores resultados estão dando ao Fable 5 problemas mais difíceis e anteriormente não resolvidos. Isso corresponde ao padrão do benchmark: o Fable se destaca mais claramente quando o trabalho exige persistência.

Contexto longo e busca agentic

O Fable 5 e o Mythos 5 suportam uma janela de contexto de 1M de tokens por padrão. Os resultados de contexto longo no system card são relatados principalmente para o Mythos 5, mas ainda são úteis para entender no que a classe de modelo subjacente é boa. No GraphWalks, o Mythos 5 marcou 91,1 F1 no subconjunto BFS 256K e 79,4 F1 no subconjunto BFS 1M, à frente do Opus 4.8 com 85,9 e 68,1. No subconjunto Parents 1M, o Mythos 5 marcou 97,5 F1 contra 83,3 do Opus 4.8.

No BrowseComp, a Anthropic relata que o Mythos 5 multi-agent atingiu 93,3% e que subagentes assíncronos estabeleceram a pontuação mais alta entre os harnesses testados. A lição importante para o desenvolvedor não é apenas "usar mais agentes". É que a estrutura multi-agent ajudou mais nos casos extremos: o system card diz que os maiores ganhos de latência vieram de problemas que já eram difíceis para execuções anteriores do Claude.

Visão e documentos

A Anthropic chama o Fable 5 de o novo modelo state-of-the-art para tarefas de visão. Os detalhes do benchmark são mais fundamentados do que essa manchete: o Fable 5 marcou 29,8% no GDP.pdf, um benchmark de documentos profissionais densos, em comparação com 22,5% do Opus 4.8, 24,9% do GPT-5.5 e 16,7% do Gemini 3.1 Pro. No OfficeQA Pro, a avaliação baseada em visão da Databricks colocou o Fable 5 em 57,9%, à frente dos 48,1% do Opus 4.8.

O system card também relata resultados fortes do Mythos 5 no ChartMuseum, LAB-Bench FigQA e CharXiv Reasoning. Especificamente para o Fable 5, tarefas de imagem com foco em biologia podem acionar salvaguardas, portanto, a conclusão correta é mais restrita: o Fable 5 é excelente em fluxos de trabalho práticos de visão/documentos, mas alguns fluxos de trabalho científicos visuais podem ser direcionados pelo caminho de salvaguarda.

Trabalho profissional

A categoria de benchmark mais interessante é a de trabalho profissional, porque se parece menos com um ranking e mais com o que os usuários pagantes realmente fazem. A Anthropic relata que o Fable/Mythos 5 foi preferido em relação ao Opus 4.8 em 74% das comparações pareadas do Real-World Finance v2, com um Elo de 1.374 contra 1.222 do Opus 4.8. A avaliação do Finance Agent v2 da Vals AI colocou o Fable em 56,31%, acima do Opus 4.8 com 53,92% e do GPT-5.5 com 51,76%.

Os números sobre questões jurídicas e uso de ferramentas também são úteis. No Harvey's Legal Agent Benchmark, o system card relata 16,91% de aprovação total e 92,0% de média de aprovação por critério no conjunto público completo dentro do harness interno da Anthropic, além de 13,3% de aprovação total no conjunto de teste do Harvey. No Toolathlon, o Fable 5 obteve 61,7% de Pass@1 e usou uma média de 19,8 turnos, enquanto o Opus 4.8 obteve 59,9% de Pass@1 e usou 24,5 turnos.

Existe pelo menos um contraexemplo oficial que vale a pena notar: no Vending-Bench, o melhor saldo final do Fable 5 foi de $5.680,26, ligeiramente abaixo dos $5.787,43 do Opus 4.8. É exatamente por isso que o system card é importante. O Fable 5 não é "estritamente melhor em todas as tarefas possíveis". Ele é um padrão muito mais forte para trabalhos complexos, longos e agentic, com exceções específicas de carga de trabalho.

Ressalva sobre Ciência

O post de lançamento e o system card descrevem resultados muito fortes do Mythos 5 em ciências da vida: aceleração no design de medicamentos, novas hipóteses de biologia molecular, pesquisa genômica e ganhos em benchmarks como BioMysteryBench, LatchBio Bioinformatics, biologia estrutural, ProteinGym Hard, química orgânica, solução de problemas de protocolos e LABBench2.

Para usuários públicos do Fable 5, a ressalva é fundamental. As salvaguardas do Fable 5 são deliberadamente amplas em relação à biologia e química, e a Anthropic afirma que algumas tarefas benéficas de ciências da vida podem acionar classificadores. Se o seu produto é da área biomédica, biologia computacional, química ou áreas correlatas à cibersegurança, crie primeiro o caminho de fallback e trate as expectativas de benchmark do Fable 5 com cautela.

Imagens Oficiais e Dados de Gráficos

A Anthropic disponibilizou vários recursos visuais com o artigo de lançamento. As imagens abaixo são os ativos oficiais hospedados que mais importam para um artigo baseado em benchmarks. Não estou re-hospedando-os aqui; a página faz referência às URLs originais da Anthropic e vincula a seção de fontes ao final.

**Tabela oficial de comparação de benchmarks:** Anthropic's launch-page table comparing Fable 5 and Mythos 5 with other leading models. The typed tables in this article use the system card where possible.

**Gráfico Diamond do FrontierCode:** Official launch visual for Fable 5 on Cognition's FrontierCode Diamond benchmark.

**Gráfico Main do FrontierCode:** Official launch visual for Fable 5 on the FrontierCode Main subset.

**Gráfico de avaliação de alinhamento:** Anthropic's automated alignment assessment chart for Mythos 5, with Fable 5 expected to be similar because the underlying model is shared.

API, Disponibilidade e Preços

O Claude Fable 5 está disponível de forma geral na Claude API, Claude Platform na AWS, Amazon Bedrock, Vertex AI e Microsoft Foundry. O Claude Mythos 5 não está disponível de forma geral; o acesso é limitado a clientes aprovados através do Project Glasswing e canais de acesso confiáveis relacionados.

A tabela de preços oficial lista o Fable 5 e o Mythos 5 a $10 por milhão de tokens de entrada e $50 por milhão de tokens de saída. Gravações em prompt-cache custam $12,50 por MTok para um cache de 5 minutos e $20 por MTok para um cache de 1 hora, enquanto acessos e atualizações de cache custam $1 por MTok. O uso em lote (batch) tem desconto para $5 de entrada e $25 de saída por MTok.

Fazendo prompts para o Fable 5

The Fable-specific prompting guide says the model is strongest on problems that were previously too complex, too long-running, or too ambiguous for earlier models. It also warns that prompts and skills written for prior Claude models can be too prescriptive. The migration work is therefore not "add more instructions." It is often "remove old scaffolding and let the stronger model work."

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-fable-5",
    max_tokens=64000,
    output_config={"effort": "high"},
    messages=[
        {
            "role": "user",
            "content": "Analyze this migration plan, implement the safe parts, and verify with tests."
        }
    ],
)

O esforço agora é o principal controle de direcionamento. Use high como padrão para a maioria dos trabalhos complexos, xhigh para tarefas sensíveis à capacidade, e medium ou low para trabalhos rotineiros onde a latência e o custo são mais importantes. Em tarefas complexas, turnos individuais podem levar minutos, e execuções autônomas podem continuar por horas. Isso significa que seu produto precisa de streaming, tratamento de tarefas assíncronas, indicadores de progresso e configurações de timeout que correspondam ao modelo que você está realmente usando.

Três mudanças nos prompts são as mais importantes. Primeiro, baseie as afirmações de progresso em resultados reais de ferramentas para que execuções longas não se desviem para atualizações de status otimistas. Segundo, defina limites: o que o modelo pode editar, quando ele deve perguntar e quais ações estão fora do escopo. Terceiro, pare de pedir que ele reproduza o raciocínio interno. A documentação alerta que prompts que solicitam raciocínio oculto podem acionar uma categoria de recusa; se você precisa de visibilidade do raciocínio, use pensamento adaptativo resumido e uma ferramenta de envio ao usuário para atualizações de progresso.

Salvaguardas e Fallback

O Fable 5 inclui classificadores para cibernética, biologia e química, destilação e extração de raciocínio. A documentação de recusa em nível de API afirma que uma recusa é uma resposta HTTP 200 bem-sucedida com stop_reason: "refusal", não um erro lançado. Os valores stop_details.category documentados incluem cyber, bio, e reasoning_extraction.

O padrão de produção mais seguro é configurar o fallback para o Claude Opus 4.8. O fallback no lado do servidor está disponível em beta na Claude API e na Claude Platform na AWS usando o server-side-fallback-2026-06-01 cabeçalho beta; o middleware do SDK pode lidar com o fallback no lado do cliente para TypeScript, Python, Go, Java e C#.

Lista de verificação de migração

1. Change the model ID to claude-fable-5.
2. Set output_config.effort explicitly.
3. Remove old show-your-chain-of-thought instructions.
4. Increase client timeouts and support streaming/async runs.
5. Add progress reporting grounded in tool results.
6. Add explicit scope and permission boundaries.
7. Add memory or notes for long-running tasks.
8. Configure Opus 4.8 fallback and monitor refusal events.
9. Re-run your evals on hard tasks, not only smoke tests.
10. Check the 30-day data-retention requirement before production use.

O Fable 5 é um modelo para ser avaliado em seu fluxo de trabalho mais difícil, não apenas em seu benchmark mais barato. O padrão oficial de benchmark diz que a vantagem aumenta com autonomia de longo prazo, entregas profissionais, raciocínio visual, uso de ferramentas e ambiguidade de tarefas. É também onde a superfície operacional aumenta: controles de custo, tratamento de fallback, memória e observabilidade importam mais do que importavam para chats de curta duração.

FAQ

O que é o Claude Fable 5?

O Claude Fable 5 é o modelo mais capaz da Anthropic disponível amplamente, anunciado em 9 de junho de 2026. É um modelo da classe Mythos com salvaguardas de produção para uso geral.

Qual é o ID do modelo da API do Claude Fable 5?

O ID do modelo da API do Claude é claude-fable-5. O modelo irmão restrito é o claude-mythos-5.

O Claude Fable 5 é o mesmo que o Claude Mythos 5?

Eles compartilham as mesmas capacidades subjacentes, mas o Claude Fable 5 inclui classificadores de segurança. O Claude Mythos 5 tem as salvaguardas removidas em algumas áreas e é limitado a usuários aprovados do Project Glasswing e de acesso confiável.

Quanto custa o Claude Fable 5?

O preço oficial é de US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída. O preço em lote (batch) é de US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída.

Quais são as maiores vitórias do Fable 5 em benchmarks?

Os sinais oficiais mais fortes estão em codificação de longo horizonte, trabalho terminal agentic, raciocínio sobre documentos, uso de computador, raciocínio de contexto longo e fluxos de trabalho profissionais. O Fable 5 pontuou 95,0% no SWE-bench Verified, 80,0% no SWE-bench Pro, 72,9% no CursorBench com esforço máximo, e liderou o FrontierCode nos subconjuntos Diamond e Main.

Que mudanças os desenvolvedores devem fazer ao criar prompts para o Fable 5?

Use o esforço como o principal controle de qualidade-latência-custo, espere turnos mais longos em tarefas difíceis, remova instruções antigas de "mostre seu raciocínio", adicione limites explícitos, use memória para trabalhos de longa duração e configure o fallback para o claude-opus-4-8 para solicitações recusadas.

Fontes oficiais

Este artigo exclui intencionalmente postagens da comunidade, cobertura da imprensa e comentários não oficiais sobre benchmarks. Todas as afirmações acima baseiam-se nestas fontes oficiais:

Lançamento do Claude Opus 4.8O modelo de fallback para o qual o Fable 5 redireciona algumas solicitações.Guia da API do Opus 4.8Esforço, raciocínio adaptativo, cache e notas de migração.