Claude Sonnet 5 от Anthropic: рекордные бенчмарки, 2M контекст и первоапрельский розыгрыш

Сразу раскрою карты: это был первоапрельский розыгрыш. Да-да, тот самый случай, когда цифры выглядят слишком хорошо, чтобы быть правдой — и, собственно, так и оказалось.

Утром Anthropic будто бы без лишнего шума «выкатила» Claude Sonnet 5. По легенде, модель с идентификатором claude-sonnet-5-20260401 уже появилась в claude.ai как вариант по умолчанию и в API по прежней цене — $3/$15 за миллион токенов, то есть без подорожания относительно Sonnet 4.6. Звучало подозрительно щедро. И, если честно, уже тут стоило насторожиться.

Что якобы изменилось

Главный «вау-момент» в посте — 92,4% на SWE-bench Verified. Для сравнения: Claude Opus 4.6, который считался предыдущим флагманом Anthropic, показывал 80,8%. GPT-5.4 — 57,7% на той же оценке. Gemini 3.1 Pro — 80,6%. Если бы такие цифры были реальными, Sonnet 5 буквально перепрыгнул бы всех разом, включая собственную линейку Anthropic, оставаясь при этом в ценовой категории Sonnet. Слишком красиво. Ну правда.

Дальше — ещё жирнее. В сценариях computer use модели приписали 88,3% на OSWorld-Verified. Для ориентира: уровень человека-эксперта на этом бенчмарке оценивается в 72,4%. То есть по сюжету Sonnet 5 не просто догонял человека в desktop automation, а уходил вперёд с запасом. GPT-5.4, который совсем недавно обсуждали из-за результата 75,0%, на этом фоне выглядел бы уже не так грозно.

В задачах на рассуждение и научные знания история становилась совсем уж киношной: 96,2% на GPQA Diamond и 84,7% на ARC-AGI-2. Для понимания масштаба: Gemini 3.1 Pro держал 94,3% на GPQA Diamond и 77,1% на ARC-AGI-2, и это уже считалось очень сильным выступлением. А тут — ещё выше, ещё резче, ещё драматичнее. Ну, как говорится, аппетит у шутки был хороший.

Почему все на это повелись

Потому что контекст располагал. За последние месяцы рынок больших моделей и правда несётся без тормозов: новые релизы, скачки в бенчмарках, борьба за цену, за контекстное окно, за качество кода, за агентные сценарии. На таком фоне новость о том, что очередная модель внезапно вырвалась вперёд, уже не кажется чем-то невозможным.

Именно поэтому текст выглядел правдоподобно. В нём аккуратно собрали всё, что сейчас цепляет аудиторию: coding, computer use, reasoning, длинный контекст, снижение галлюцинаций, улучшение работы между файлами. То есть весь набор тем, которые важны для компаний, внедряющих AI-агентов и AI-автоматизацию, а также для команд, проектирующих архитектуру AI-агентов под реальные бизнес-процессы.

И да, цена тоже сыграла свою роль. В тексте утверждалось, что Sonnet 5 стоит всего $3 за входной миллион токенов — чуть дороже GPT-5.4, но якобы заметно сильнее почти по всем направлениям. А по сравнению с Opus 4.6 и вовсе выглядел как подарок судьбы. Когда на рынке все ищут лучший баланс между качеством, стоимостью и надёжностью, такие заявления читаются очень убедительно. Даже слишком.

Контекстное окно и «новые возможности»

В розыгрыше Sonnet 5 приписали контекстное окно на 2 миллиона токенов, причём с намёком на то, что режим вышел из beta и стал доступен через заголовок context-2m. Плюс — улучшенная adaptive thinking architecture, которая якобы ещё точнее распределяет глубину рассуждений в зависимости от задачи.

Отдельно упоминались отзывы ранних пользователей Claude Code: меньше hallucinated completions, лучшее удержание контекста между файлами, более сильные frontend-результаты, а разработчики будто бы выбирали Sonnet 5 вместо Sonnet 4.6 в 82% случаев. Всё это звучало очень в духе реальных продуктовых анонсов. Вот в чём фокус. Хорошая шутка не кричит, она шепчет.

Кстати, если смотреть на это уже без розовых очков, именно такие параметры обычно и оценивают компании, когда строят production-решения: качество памяти, устойчивость поведения, работа с длинным контекстом, безопасность и контроль. Для этого на практике нужны не только модели, но и агентная память и RAG, а также продуманная безопасность AI-агентов. Одна «магическая» модель, увы, не решает всё. Было бы славно, конечно, но нет.

Почему такие публикации вообще важны

Потому что они показывают, насколько рынок стал чувствителен к бенчмаркам. Одно громкое число — и все уже мысленно пересобирают стек, считают бюджет, планируют миграцию API и прикидывают, как новая модель поведёт себя в агентных сценариях, мультиагентной оркестрации и enterprise AI.

Но реальная оценка модели — это не только таблица с процентами. Это ещё и соответствие требованиям безопасности, управляемость, предсказуемость в проде, качество интеграции с внутренними данными, поддержка сложных workflow. Особенно если речь идёт о корпоративных внедрениях, где важны мультиагентные системы и AI compliance и соответствие требованиям. Бенчмарк — полезный сигнал. Но не приговор и не гарантия. Вот так, без романтики.

Коротко, по-человечески

Если вы дочитали до конца и уже почти поверили в «сверхмодель», вы не одиноки. Многие в комментариях тоже сначала купились — и это, честно говоря, неудивительно. Текст был собран ловко, цифры выглядели правдоподобно, а рынок сейчас настолько перегрет новостями, что подобный анонс уже не кажется фантастикой.

Но итог простой: Claude Sonnet 5 в этом материале — первоапрельская шутка. Никакого подтверждённого релиза с такими характеристиками здесь нет. Зато есть полезное напоминание: когда новость про AI выглядит чересчур мощно, стоит на секунду притормозить, проверить источник, сверить детали и только потом делать выводы. Иногда хайп — это просто хайп. Ну или очень удачный розыгрыш.