Утром Anthropic будто бы без лишнего шума «выкатила» Claude Sonnet 5. По легенде, модель с идентификатором claude-sonnet-5-20260401 уже появилась в claude.ai как вариант по умолчанию и в API по прежней цене — $3/$15 за миллион токенов, то есть без подорожания относительно Sonnet 4.6. Звучало подозрительно щедро. И, если честно, уже тут стоило насторожиться.
Что якобы изменилось
Главный «вау-момент» в посте — 92,4% на SWE-bench Verified. Для сравнения: Claude Opus 4.6, который считался предыдущим флагманом Anthropic, показывал 80,8%. GPT-5.4 — 57,7% на той же оценке. Gemini 3.1 Pro — 80,6%. Если бы такие цифры были реальными, Sonnet 5 буквально перепрыгнул бы всех разом, включая собственную линейку Anthropic, оставаясь при этом в ценовой категории Sonnet. Слишком красиво. Ну правда.
Дальше — ещё жирнее. В сценариях computer use модели приписали 88,3% на OSWorld-Verified. Для ориентира: уровень человека-эксперта на этом бенчмарке оценивается в 72,4%. То есть по сюжету Sonnet 5 не просто догонял человека в desktop automation, а уходил вперёд с запасом. GPT-5.4, который совсем недавно обсуждали из-за результата 75,0%, на этом фоне выглядел бы уже не так грозно.
В задачах на рассуждение и научные знания история становилась совсем уж киношной: 96,2% на GPQA Diamond и 84,7% на ARC-AGI-2. Для понимания масштаба: Gemini 3.1 Pro держал 94,3% на GPQA Diamond и 77,1% на ARC-AGI-2, и это уже считалось очень сильным выступлением. А тут — ещё выше, ещё резче, ещё драматичнее. Ну, как говорится, аппетит у шутки был хороший.
Почему все на это повелись
Потому что контекст располагал. За последние месяцы рынок больших моделей и правда несётся без тормозов: новые релизы, скачки в бенчмарках, борьба за цену, за контекстное окно, за качество кода, за агентные сценарии. На таком фоне новость о том, что очередная модель внезапно вырвалась вперёд, уже не кажется чем-то невозможным.
Именно поэтому текст выглядел правдоподобно. В нём аккуратно собрали всё, что сейчас цепляет аудиторию: coding, computer use, reasoning, длинный контекст, снижение галлюцинаций, улучшение работы между файлами. То есть весь набор тем, которые важны для компаний, внедряющих AI-агентов и AI-автоматизацию, а также для команд, проектирующих архитектуру AI-агентов под реальные бизнес-процессы.
И да, цена тоже сыграла свою роль. В тексте утверждалось, что Sonnet 5 стоит всего $3 за входной миллион токенов — чуть дороже GPT-5.4, но якобы заметно сильнее почти по всем направлениям. А по сравнению с Opus 4.6 и вовсе выглядел как подарок судьбы. Когда на рынке все ищут лучший баланс между качеством, стоимостью и надёжностью, такие заявления читаются очень убедительно. Даже слишком.
Контекстное окно и «новые возможности»
В розыгрыше Sonnet 5 приписали контекстное окно на 2 миллиона токенов, причём с намёком на то, что режим вышел из beta и стал доступен через заголовок context-2m. Плюс — улучшенная adaptive thinking architecture, которая якобы ещё точнее распределяет глубину рассуждений в зависимости от задачи.
Отдельно упоминались отзывы ранних пользователей Claude Code: меньше hallucinated completions, лучшее удержание контекста между файлами, более сильные frontend-результаты, а разработчики будто бы выбирали Sonnet 5 вместо Sonnet 4.6 в 82% случаев. Всё это звучало очень в духе реальных продуктовых анонсов. Вот в чём фокус. Хорошая шутка не кричит, она шепчет.
Кстати, если смотреть на это уже без розовых очков, именно такие параметры обычно и оценивают компании, когда строят production-решения: качество памяти, устойчивость поведения, работа с длинным контекстом, безопасность и контроль. Для этого на практике нужны не только модели, но и агентная память и RAG, а также продуманная безопасность AI-агентов. Одна «магическая» модель, увы, не решает всё. Было бы славно, конечно, но нет.
Почему такие публикации вообще важны
Потому что они показывают, насколько рынок стал чувствителен к бенчмаркам. Одно громкое число — и все уже мысленно пересобирают стек, считают бюджет, планируют миграцию API и прикидывают, как новая модель поведёт себя в агентных сценариях, мультиагентной оркестрации и enterprise AI.
Но реальная оценка модели — это не только таблица с процентами. Это ещё и соответствие требованиям безопасности, управляемость, предсказуемость в проде, качество интеграции с внутренними данными, поддержка сложных workflow. Особенно если речь идёт о корпоративных внедрениях, где важны мультиагентные системы и AI compliance и соответствие требованиям. Бенчмарк — полезный сигнал. Но не приговор и не гарантия. Вот так, без романтики.
Коротко, по-человечески
Если вы дочитали до конца и уже почти поверили в «сверхмодель», вы не одиноки. Многие в комментариях тоже сначала купились — и это, честно говоря, неудивительно. Текст был собран ловко, цифры выглядели правдоподобно, а рынок сейчас настолько перегрет новостями, что подобный анонс уже не кажется фантастикой.
Но итог простой: Claude Sonnet 5 в этом материале — первоапрельская шутка. Никакого подтверждённого релиза с такими характеристиками здесь нет. Зато есть полезное напоминание: когда новость про AI выглядит чересчур мощно, стоит на секунду притормозить, проверить источник, сверить детали и только потом делать выводы. Иногда хайп — это просто хайп. Ну или очень удачный розыгрыш.
С Днём смеха. 🎉
