Руководство по бенчмаркам и промптингу Claude Fable 5

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Что было запущено

Официальный аккаунт Claude анонсировал Claude Fable 5 9 июня 2026 г. как модель класса Mythos, адаптированную для безопасного общего использования. В статье Anthropic о запуске говорится, что Fable 5 превосходит все ранее выпущенные компанией модели, причем отрыв увеличивается по мере усложнения и увеличения объема задач.

Важно различать два названия. Claude Fable 5 — это общедоступная модель с классификаторами безопасности. Claude Mythos 5обладает теми же базовыми возможностями, но с частично снятыми ограничениями безопасности; доступ к ней ограничен одобренными участниками Project Glasswing и доверенными клиентами. Если в системной карте упоминаются обе модели, в этой статье данные представлены в отдельных столбцах.

Представляем Claude Fable 5: модель класса Mythos, адаптированную для безопасного общего использования.
— Claude (@claudeai)9 июня 2026 г.

Official model IDs:
Claude Fable 5  -> claude-fable-5
Claude Mythos 5 -> claude-mythos-5

Context window: 1M tokens
Max output:     128k tokens per request
Pricing:        $10 / MTok input, $50 / MTok output
Batch pricing:  $5 / MTok input, $25 / MTok output
Launch date:    June 9, 2026

Сводка бенчмарков

Официальная системная карта (system card) является наиболее полезным источником для бенчмарков, поскольку она разделяет результаты Fable 5, Mythos 5, Mythos Preview, Opus 4.8 и внешних моделей. Оценки Fable отражают работу защитных механизмов (safeguards), включая поведение при сбоях, поэтому небольшие различия между Fable и Mythos не всегда означают разницу в возможностях базовой модели.

Оценка	Fable 5	Mythos 5	Opus 4.8	Что это измеряет
SWE-bench Verified	95.0%	95.5%	88.6%	500 human-verified software issues, averaged over five trials.
SWE-bench Pro	80.0%	80.3%	69.2%	Harder active-repository tasks with larger diffs and less public ground truth.
Terminal-Bench 2.1	84.3%	88.0%	82.7%	Terminal tasks in a mini-SWE-agent harness; Fable had safety fallback in 20.9% of trials.
OSWorld-Verified	85.0%	85.0%	83.4%	Live Ubuntu computer-use tasks, pass@1 averaged over five runs.
GDP.pdf	29.8%	not listed	22.5%	Dense professional PDF reasoning; Fable also led GPT-5.5 and Gemini 3.1 Pro in the system card table.
OfficeQA Pro	57.9%	not listed	48.1%	Databricks vision-based evaluation over U.S. Treasury Bulletin documents.
Toolathlon	61.7% Pass@1	61.7% Pass@1	59.9% Pass@1	108 real-world tool-use tasks across 32 applications.
MCP Atlas	83.3%	not listed	82.2%	Multi-step MCP tool-use workflows over production-like server environments.

История бенчмарков — это не одно огромное число. Это закономерность: Fable 5 наиболее сильна там, где задача является длительной, насыщенной инструментами, мультимодальной, неоднозначной или более приближенной к реальной работе, чем простой обмен «запрос-ответ». Именно поэтому простые smoke-тесты могут недооценивать её возможности.

Бенчмарки кодинга

Разработка ПО — самый важный показатель запуска. Anthropic сообщает, что Fable 5 достигает 95,0% в SWE-bench Verified и 80,0% в SWE-bench Pro, в то время как системная карта оценивает Opus 4.8 в 88,6% и 69,2% соответственно. Наиболее заметный скачок наблюдается в долгосрочных агентных бенчмарках по кодингу, где модели необходимо исследовать, исправлять, тестировать и восстанавливаться на протяжении многих шагов.

Бенчмарк	Результат Fable 5	Официальное сравнение
FrontierCode Diamond	Fable 5: 29.3 score / 30.2 pass rate	Opus 4.8: 13.4 / 14.5; GPT-5.5: 5.7 / 6.4
FrontierCode Main	Fable 5: 46.3 score / 48.8 pass rate	Opus 4.8: 34.3 / 37.3; GPT-5.5: 25.5 / 28.2
FrontierSWE	Fable 5 ranked #1 at 2.12 mean@5	Opus 4.8 ranked #2 at 3.26; GPT-5.5 ranked #3 at 3.94
CursorBench	Fable 5 scored 72.9% at max effort	The system card says it led GPT-5.5 by 8.6 points at that model's highest published effort.

Практический вывод: не оценивайте Fable 5 только по коротким фрагментам кода, форматированию или нескольким простым задачам на GitHub. Официальная документация гласит, что команды, получающие наилучшие результаты, ставят перед Fable 5 более сложные, ранее нерешенные задачи. Это соответствует закономерности бенчмарков: Fable показывает себя лучше всего там, где работа требует упорства.

Длинный контекст и агентный поиск

Fable 5 и Mythos 5 по умолчанию поддерживают контекстное окно в 1 млн токенов. Результаты для длинного контекста в системной карте в основном приведены для Mythos 5, но они всё равно полезны для понимания того, в чем силен данный класс моделей. В GraphWalks модель Mythos 5 набрала 91,1 F1 на подмножестве BFS 256K и 79,4 F1 на подмножестве BFS 1M, опередив Opus 4.8 с результатами 85,9 и 68,1. На подмножестве Parents 1M модель Mythos 5 набрала 97,5 F1 против 83,3 у Opus 4.8.

В BrowseComp, по данным Anthropic, мультиагентная Mythos 5 достигла 93,3%, а асинхронные субагенты установили самый высокий результат среди протестированных инструментов. Важный урок для разработчиков заключается не просто в том, чтобы «использовать больше агентов». Суть в том, что мультиагентная структура больше всего помогла в сложных случаях: системная карта указывает, что наибольший прирост производительности был получен на задачах, которые были трудными для предыдущих версий Claude.

Зрение и документы

Anthropic называет Fable 5 новой передовой моделью для задач компьютерного зрения. Детали бенчмарков более приземленные, чем этот заголовок: Fable 5 набрала 29,8% в GDP.pdf, бенчмарке по сложным профессиональным документам, по сравнению с 22,5% у Opus 4.8, 24,9% у GPT-5.5 и 16,7% у Gemini 3.1 Pro. В OfficeQA Pro, оценке Databricks на основе зрения, Fable 5 получила 57,9%, опередив Opus 4.8 с 48,1%.

Системная карта также сообщает о высоких результатах Mythos 5 в ChartMuseum, LAB-Bench FigQA и CharXiv Reasoning. Что касается конкретно Fable 5, то биологически ориентированные задачи с изображениями могут активировать защитные механизмы, поэтому правильный вывод более узкий: Fable 5 отлично подходит для практических рабочих процессов со зрением/документами, но некоторые научные визуальные задачи могут направляться через путь защитных фильтров.

Профессиональная работа

Самая интересная категория бенчмарков — это профессиональные задачи, поскольку они меньше похожи на таблицу лидеров и больше — на реальную работу платных пользователей. Anthropic сообщает, что Fable/Mythos 5 предпочли Opus 4.8 в 74% парных сравнений в Real-World Finance v2, при этом показатель Elo составил 1374 против 1222 у Opus 4.8. Оценка Finance Agent v2 от Vals AI поставила Fable на уровень 56,31%, что выше, чем 53,92% у Opus 4.8 и 51,76% у GPT-5.5.

Показатели в области права и использования инструментов также полезны. Согласно Harvey's Legal Agent Benchmark, в системной карте сообщается о 16,91% успешных прохождений всех тестов (all-pass) и 92,0% среднем прохождении критериев на полном публичном наборе во внутренней системе Anthropic, а также 13,3% all-pass на отложенном наборе Harvey. В Toolathlon модель Fable 5 набрала 61,7% Pass@1 при среднем использовании 19,8 шагов, тогда как Opus 4.8 набрала 59,9% Pass@1 при 24,5 шагах.

Существует как минимум один официальный контрпример, который стоит учитывать: в Vending-Bench лучший финальный баланс Fable 5 составил $5680,26, что немного ниже, чем $5787,43 у Opus 4.8. Именно поэтому системная карта имеет значение. Fable 5 не является «абсолютно лучшей во всех возможных задачах». Это гораздо более мощный вариант по умолчанию для сложных, длительных агентных задач, за исключением специфических рабочих нагрузок.

Предостережение относительно науки

В анонсе и системной карте описаны очень сильные результаты Mythos 5 в области медико-биологических наук: ускорение разработки лекарств, новые гипотезы в молекулярной биологии, исследования в области геномики, а также прирост показателей в BioMysteryBench, LatchBio Bioinformatics, структурной биологии, ProteinGym Hard, органической химии, устранении неполадок в протоколах и LABBench2.

Для обычных пользователей Fable 5 это предостережение является ключевым. Меры безопасности Fable 5 намеренно расширены в области биологии и химии, и Anthropic предупреждает, что некоторые полезные задачи в сфере медико-биологических наук могут активировать классификаторы. Если ваш продукт связан с биомедициной, вычислительной биологией, химией или кибербезопасностью, сначала создайте резервный путь и осторожно относитесь к ожиданиям от Fable 5 на основе бенчмарков.

Официальные изображения и данные графиков

Вместе с анонсом Anthropic опубликовала несколько визуальных материалов. Приведенные ниже изображения являются официальными размещенными ресурсами, которые наиболее важны для статьи, основанной на бенчмарках. Я не размещаю их повторно; страница ссылается на оригинальные URL-адреса Anthropic, а в конце указан раздел с источниками.

**Официальная сравнительная таблица бенчмарков:** Anthropic's launch-page table comparing Fable 5 and Mythos 5 with other leading models. The typed tables in this article use the system card where possible.

**График FrontierCode Diamond:** Official launch visual for Fable 5 on Cognition's FrontierCode Diamond benchmark.

**График FrontierCode Main:** Official launch visual for Fable 5 on the FrontierCode Main subset.

**График оценки согласованности (Alignment):** Anthropic's automated alignment assessment chart for Mythos 5, with Fable 5 expected to be similar because the underlying model is shared.

API, доступность и цены

Claude Fable 5 общедоступна через Claude API, Claude Platform на AWS, Amazon Bedrock, Vertex AI и Microsoft Foundry. Claude Mythos 5 не является общедоступной; доступ ограничен одобренными клиентами через Project Glasswing и связанные каналы доверенного доступа.

В официальной таблице цен указано, что Fable 5 и Mythos 5 стоят $10 за миллион входных токенов и $50 за миллион выходных токенов. Запись в кэш промптов стоит $12,50 за MTok для 5-минутного кэша и $20 за MTok для 1-часового кэша, в то время как попадания в кэш и обновления стоят $1 за MTok. Для пакетного использования действует скидка: $5 за входные и $25 за выходные токены на MTok.

Промпты для Fable 5

The Fable-specific prompting guide says the model is strongest on problems that were previously too complex, too long-running, or too ambiguous for earlier models. It also warns that prompts and skills written for prior Claude models can be too prescriptive. The migration work is therefore not "add more instructions." It is often "remove old scaffolding and let the stronger model work."

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-fable-5",
    max_tokens=64000,
    output_config={"effort": "high"},
    messages=[
        {
            "role": "user",
            "content": "Analyze this migration plan, implement the safe parts, and verify with tests."
        }
    ],
)

Теперь основным инструментом управления является «усилие» (effort). Используйте high в качестве значения по умолчанию для большинства сложных задач, xhigh для задач, чувствительных к возможностям модели, и medium или low для рутинной работы, где задержка и стоимость важнее. В сложных задачах отдельные шаги могут выполняться минутами, а автономные запуски — часами. Это означает, что ваш продукт должен поддерживать потоковую передачу, асинхронную обработку заданий, индикаторы прогресса и настройки тайм-аутов, соответствующие модели, которую вы используете.

Наиболее важны три изменения в промптах. Во-первых, основывайте отчеты о прогрессе на фактических результатах инструментов, чтобы длительные запуски не превращались в чрезмерно оптимистичные обновления статуса. Во-вторых, границы состояния: что модель может редактировать, когда она должна спрашивать и какие действия выходят за рамки её полномочий. В-третьих, перестаньте просить её воспроизводить внутренние рассуждения. Документация предупреждает, что промпты с требованием показать скрытые рассуждения могут вызвать отказ; если вам нужна прозрачность рассуждений, используйте обобщенное адаптивное мышление и инструмент отправки пользователю для обновлений о прогрессе.

Меры безопасности и резервные пути

Fable 5 включает классификаторы по кибербезопасности, биологии и химии, дистилляции и извлечению логических выводов. В документации по отказам на уровне API указано, что отказ — это успешный HTTP-ответ 200 с stop_reason: "refusal", а не выброшенная ошибка. Задокументированные stop_details.category значения включают cyber, bio, и reasoning_extraction.

Самый безопасный паттерн для продакшена — настроить резервный вариант (fallback) на Claude Opus 4.8. Серверный fallback доступен в бета-версии в Claude API и Claude Platform на AWS с использованием server-side-fallback-2026-06-01 заголовка beta; SDK-middleware может обрабатывать клиентский fallback для TypeScript, Python, Go, Java и C#.

Чек-лист по миграции

1. Change the model ID to claude-fable-5.
2. Set output_config.effort explicitly.
3. Remove old show-your-chain-of-thought instructions.
4. Increase client timeouts and support streaming/async runs.
5. Add progress reporting grounded in tool results.
6. Add explicit scope and permission boundaries.
7. Add memory or notes for long-running tasks.
8. Configure Opus 4.8 fallback and monitor refusal events.
9. Re-run your evals on hard tasks, not only smoke tests.
10. Check the 30-day data-retention requirement before production use.

Fable 5 — это модель для оценки ваших самых сложных рабочих процессов, а не просто самых дешевых бенчмарков. Официальный паттерн бенчмаркинга показывает, что преимущество модели растет при долгосрочной автономности, создании профессиональных результатов, визуальном мышлении, использовании инструментов и неопределенности задач. Именно здесь увеличивается операционная нагрузка: контроль затрат, обработка fallback, память и наблюдаемость становятся важнее, чем при коротких диалогах.

FAQ

Что такое Claude Fable 5?

Claude Fable 5 — это самая мощная общедоступная модель от Anthropic, анонсированная 9 июня 2026 года. Это модель класса Mythos с встроенными средствами защиты для общего использования.

Какой ID модели API у Claude Fable 5?

ID модели Claude API — claude-fable-5. Ограниченная версия модели — claude-mythos-5.

Claude Fable 5 и Claude Mythos 5 — это одно и то же?

Они обладают одинаковыми базовыми возможностями, но Claude Fable 5 включает в себя классификаторы безопасности. В Claude Mythos 5 некоторые ограничения сняты, и доступ к ней ограничен пользователями Project Glasswing и доверенными лицами.

Сколько стоит Claude Fable 5?

Официальная стоимость составляет $10 за миллион входных токенов и $50 за миллион выходных токенов. Стоимость пакетной обработки (Batch) — $5 за миллион входных токенов и $25 за миллион выходных токенов.

Каковы главные достижения Fable 5 в бенчмарках?

Наиболее сильные официальные показатели наблюдаются в долгосрочном программировании, агентной работе в терминале, анализе документов, компьютерном использовании (computer use), рассуждениях на длинных контекстах и профессиональных рабочих процессах. Fable 5 набрала 95,0% в SWE-bench Verified, 80,0% в SWE-bench Pro, 72,9% в CursorBench при максимальных усилиях и заняла лидирующие позиции в подмножествах FrontierCode Diamond и Main.

Что следует изменить разработчикам при составлении промптов для Fable 5?

Используйте параметр effort как основной инструмент контроля качества, задержки и стоимости; ожидайте более длинных ответов при выполнении сложных задач; удалите старые инструкции типа «покажи свои рассуждения»; добавьте четкие границы; используйте память для длительных задач и настройте резервный вариант (fallback) на claude-opus-4-8 для отклоненных запросов.

Официальные источники

Эта статья намеренно исключает публикации сообщества, освещение в прессе и неофициальные комментарии к бенчмаркам. Все утверждения выше основаны на следующих официальных источниках:

Запуск Claude Opus 4.8Резервная модель, на которую Fable 5 перенаправляет некоторые запросы.Руководство по API для Opus 4.8Усилия, адаптивное мышление, кэширование и заметки по миграции.