GPT‑5.4 от OpenAI: новая модель для AI‑агентов, автоматизации и профессиональной работы
5 марта 2026 г. • Продукт • Релиз
Представляем GPT‑5.4
Новая модель OpenAI для сложной профессиональной работы, AI‑агентов и автоматизации.
Если коротко: OpenAI выпустила GPT‑5.4 в ChatGPT, API и Codex. В ChatGPT модель доступна как GPT‑5.4 Thinking. Параллельно вышла и GPT‑5.4 Pro — версия для случаев, где на первом месте не компромисс, а максимум производительности. Да, это уже не просто «ещё одна модель». Речь скорее о рабочем инструменте для тех задач, где цена ошибки ощутима.
GPT‑5.4 объединяет несколько направлений, которые раньше часто воспринимались по отдельности: сильное рассуждение, программирование, работу с инструментами и агентные сценарии. И вот тут начинается самое интересное. Модель заметно увереннее ведёт себя в реальной деловой среде: с таблицами, документами, презентациями, программными окружениями и длинными многошаговыми задачами. Для компаний, которые смотрят в сторону разработки AI‑агентов и автоматизации, это, честно говоря, особенно важный сдвиг.
В ChatGPT версия GPT‑5.4 Thinking умеет заранее показывать план рассуждений, чтобы пользователь мог подправить направление ещё по ходу ответа, а не после того, как модель уже уехала не туда. Удобно. Иногда даже очень. Это снижает число лишних итераций и помогает быстрее получить результат, который действительно соответствует задаче, а не просто выглядит умно.
Кроме того, модель стала сильнее в глубоком веб‑исследовании: лучше справляется с узкими, специализированными запросами и дольше удерживает контекст там, где задача требует не мгновенной реакции, а вдумчивой работы. Для аналитики, подготовки материалов, исследования рынка и сложных внутренних процессов это серьёзное улучшение.
В API и Codex GPT‑5.4 позиционируется как первая универсальная модель OpenAI с нативными продвинутыми возможностями использования компьютера. Проще говоря, она лучше подходит для сценариев, где агент не просто отвечает на вопрос, а действует: открывает приложения, проходит шаги процесса, использует инструменты, проверяет результат. Это уже территория архитектуры AI‑агентов и зрелой AI‑автоматизации, а не обычного чат‑интерфейса.
Поддержка контекста до 1 миллиона токенов позволяет модели планировать и выполнять длинные цепочки действий на больших горизонтах. Для многошаговых бизнес‑процессов, сложных пайплайнов и агентных систем это критично: модель может держать в памяти больше данных, меньше терять нить и реже «забывать, о чём вообще шла речь». А это, как ни крути, одна из вечных болей в enterprise‑сценариях.
Ещё одно важное обновление — поиск инструментов. GPT‑5.4 лучше ориентируется в больших экосистемах коннекторов, функций и внешних сервисов, эффективнее находит нужный инструмент и использует его без заметной просадки в качестве рассуждения. Для компаний, которые строят мультиагентные системы, это не косметика, а вполне прикладное преимущество.
И да, есть ещё вопрос экономики. GPT‑5.4 OpenAI называет своей самой token‑efficient reasoning‑моделью на текущий момент. По сравнению с GPT‑5.2 она тратит существенно меньше токенов на решение задач. Что это значит на практике? Ниже расходы, выше скорость, меньше лишнего шума. Иногда именно это и решает, взлетит автоматизация или останется красивой демкой.
В сумме GPT‑5.4 даёт более надёжное поведение в агентных сценариях, ускоряет работу разработчиков и улучшает качество результатов в ChatGPT, API и Codex. Для бизнеса это особенно актуально там, где нужны не просто ответы, а воспроизводимые процессы, контроль качества, память, безопасность и соответствие требованиям. Кстати, если в проекте важны агентная память и RAG или AI compliance и соответствие требованиям, потенциал модели раскрывается заметно сильнее при правильной настройке.
Ключевые показатели GPT‑5.4
| Бенчмарк | GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 |
|---|---|---|---|
| GDPval (победы или ничьи) | 83.0% | 70.9% | 70.9% |
| SWE‑Bench Pro (Public) | 57.7% | 56.8% | 55.6% |
| OSWorld‑Verified | 75.0% | 74.0%* | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
*Ранее показатель сообщался как 64.7%. GPT‑5.3‑Codex достигает 74.0% с новым параметром API, сохраняющим исходное разрешение изображения.
Работа со знаниями
GPT‑5.4 развивает сильные стороны GPT‑5.2 в рассуждении, но делает это не только «на бумаге». Модель выдаёт более стабильные, аккуратно оформленные и практически полезные результаты в задачах, которые действительно важны специалистам: аналитика, подготовка материалов, структурирование информации, создание рабочих артефактов.
В бенчмарке GDPval, где оценивается способность агентов создавать чётко заданные результаты интеллектуальной работы в 44 профессиях из 9 крупных отраслей экономики США, GPT‑5.4 показывает новый лучший результат. Она достигает 83.0% побед или ничьих против уровня отраслевых специалистов, тогда как GPT‑5.2 показывает 70.9%. Разница, мягко говоря, не символическая.
Сам тест устроен довольно приземлённо — и в этом его ценность. Моделям предлагают не абстрактные головоломки, а реальные рабочие результаты: презентации по продажам, бухгалтерские таблицы, расписания urgent care, производственные схемы, короткие видео и другие артефакты, которые люди обычно делают в рамках своей профессии. То есть проверяется не «умность вообще», а способность доводить дело до внятного результата.
«GPT‑5.4 — лучшая модель, которую мы когда‑либо тестировали. Сейчас она занимает первое место в нашем бенчмарке APEX‑Agents, который измеряет производительность моделей для задач в сфере профессиональных услуг. Она особенно сильна в создании результатов на длинном горизонте — например, слайд‑деков, финансовых моделей и юридического анализа — и при этом обеспечивает топовую производительность с более высокой скоростью и меньшей стоимостью по сравнению с конкурирующими frontier‑моделями».
OpenAI отдельно подчёркивает прогресс в создании и редактировании электронных таблиц, презентаций и документов. Во внутреннем бенчмарке по задачам моделирования в таблицах — на уровне того, что мог бы делать младший аналитик инвестбанка, — GPT‑5.4 набирает в среднем 87.3% против 68.4% у GPT‑5.2.
С презентациями картина тоже показательная. В наборе промптов для оценки слайдов люди‑оценщики предпочитали материалы, созданные GPT‑5.4, в 68.0% случаев по сравнению с GPT‑5.2. Причины вполне земные: более сильная визуальная подача, большее разнообразие, лучшее использование генерации изображений. Не магия — просто результат выглядит убедительнее.
Что всё это значит для российского рынка? По сути, GPT‑5.4 — это серьёзная база для enterprise‑решений, где нужны AI‑агенты, автоматизация знаний, работа с документами, оркестрация инструментов и длинный контекст. Но сама по себе модель не решает всё. Нужны продуманная интеграция, контроль доступа, защита данных, память, маршрутизация задач и механизмы проверки. Иначе, ну, получится дорогой и очень разговорчивый помощник.
Именно поэтому при внедрении таких моделей компании обычно смотрят шире: на безопасность AI‑агентов, архитектуру, агентную память, RAG, мультиагентную координацию и соответствие внутренним требованиям. В этом и состоит реальная ценность GPT‑5.4: она не просто отвечает лучше, а становится более пригодной для построения надёжных AI‑систем в бизнесе.
