GPT‑5.4 от OpenAI: новая модель для AI‑агентов, автоматизации и профессиональной работы

openaigpt-5-4ai-agentsautomationenterprise-ai

5 марта 2026 г. • Продукт • Релиз

Представляем GPT‑5.4

Новая модель OpenAI для сложной профессиональной работы, AI‑агентов и автоматизации.

Если коротко: OpenAI выпустила GPT‑5.4 в ChatGPT, API и Codex. В ChatGPT модель доступна как GPT‑5.4 Thinking. Параллельно вышла и GPT‑5.4 Pro — версия для случаев, где на первом месте не компромисс, а максимум производительности. Да, это уже не просто «ещё одна модель». Речь скорее о рабочем инструменте для тех задач, где цена ошибки ощутима.

GPT‑5.4 объединяет несколько направлений, которые раньше часто воспринимались по отдельности: сильное рассуждение, программирование, работу с инструментами и агентные сценарии. И вот тут начинается самое интересное. Модель заметно увереннее ведёт себя в реальной деловой среде: с таблицами, документами, презентациями, программными окружениями и длинными многошаговыми задачами. Для компаний, которые смотрят в сторону разработки AI‑агентов и автоматизации, это, честно говоря, особенно важный сдвиг.

В ChatGPT версия GPT‑5.4 Thinking умеет заранее показывать план рассуждений, чтобы пользователь мог подправить направление ещё по ходу ответа, а не после того, как модель уже уехала не туда. Удобно. Иногда даже очень. Это снижает число лишних итераций и помогает быстрее получить результат, который действительно соответствует задаче, а не просто выглядит умно.

Кроме того, модель стала сильнее в глубоком веб‑исследовании: лучше справляется с узкими, специализированными запросами и дольше удерживает контекст там, где задача требует не мгновенной реакции, а вдумчивой работы. Для аналитики, подготовки материалов, исследования рынка и сложных внутренних процессов это серьёзное улучшение.

В API и Codex GPT‑5.4 позиционируется как первая универсальная модель OpenAI с нативными продвинутыми возможностями использования компьютера. Проще говоря, она лучше подходит для сценариев, где агент не просто отвечает на вопрос, а действует: открывает приложения, проходит шаги процесса, использует инструменты, проверяет результат. Это уже территория архитектуры AI‑агентов и зрелой AI‑автоматизации, а не обычного чат‑интерфейса.

Поддержка контекста до 1 миллиона токенов позволяет модели планировать и выполнять длинные цепочки действий на больших горизонтах. Для многошаговых бизнес‑процессов, сложных пайплайнов и агентных систем это критично: модель может держать в памяти больше данных, меньше терять нить и реже «забывать, о чём вообще шла речь». А это, как ни крути, одна из вечных болей в enterprise‑сценариях.

Ещё одно важное обновление — поиск инструментов. GPT‑5.4 лучше ориентируется в больших экосистемах коннекторов, функций и внешних сервисов, эффективнее находит нужный инструмент и использует его без заметной просадки в качестве рассуждения. Для компаний, которые строят мультиагентные системы, это не косметика, а вполне прикладное преимущество.

И да, есть ещё вопрос экономики. GPT‑5.4 OpenAI называет своей самой token‑efficient reasoning‑моделью на текущий момент. По сравнению с GPT‑5.2 она тратит существенно меньше токенов на решение задач. Что это значит на практике? Ниже расходы, выше скорость, меньше лишнего шума. Иногда именно это и решает, взлетит автоматизация или останется красивой демкой.

В сумме GPT‑5.4 даёт более надёжное поведение в агентных сценариях, ускоряет работу разработчиков и улучшает качество результатов в ChatGPT, API и Codex. Для бизнеса это особенно актуально там, где нужны не просто ответы, а воспроизводимые процессы, контроль качества, память, безопасность и соответствие требованиям. Кстати, если в проекте важны агентная память и RAG или AI compliance и соответствие требованиям, потенциал модели раскрывается заметно сильнее при правильной настройке.

Ключевые показатели GPT‑5.4

Бенчмарк	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (победы или ничьи)	83.0%	70.9%	70.9%
SWE‑Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld‑Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*Ранее показатель сообщался как 64.7%. GPT‑5.3‑Codex достигает 74.0% с новым параметром API, сохраняющим исходное разрешение изображения.

Работа со знаниями

GPT‑5.4 развивает сильные стороны GPT‑5.2 в рассуждении, но делает это не только «на бумаге». Модель выдаёт более стабильные, аккуратно оформленные и практически полезные результаты в задачах, которые действительно важны специалистам: аналитика, подготовка материалов, структурирование информации, создание рабочих артефактов.

В бенчмарке GDPval, где оценивается способность агентов создавать чётко заданные результаты интеллектуальной работы в 44 профессиях из 9 крупных отраслей экономики США, GPT‑5.4 показывает новый лучший результат. Она достигает 83.0% побед или ничьих против уровня отраслевых специалистов, тогда как GPT‑5.2 показывает 70.9%. Разница, мягко говоря, не символическая.

Сам тест устроен довольно приземлённо — и в этом его ценность. Моделям предлагают не абстрактные головоломки, а реальные рабочие результаты: презентации по продажам, бухгалтерские таблицы, расписания urgent care, производственные схемы, короткие видео и другие артефакты, которые люди обычно делают в рамках своей профессии. То есть проверяется не «умность вообще», а способность доводить дело до внятного результата.

«GPT‑5.4 — лучшая модель, которую мы когда‑либо тестировали. Сейчас она занимает первое место в нашем бенчмарке APEX‑Agents, который измеряет производительность моделей для задач в сфере профессиональных услуг. Она особенно сильна в создании результатов на длинном горизонте — например, слайд‑деков, финансовых моделей и юридического анализа — и при этом обеспечивает топовую производительность с более высокой скоростью и меньшей стоимостью по сравнению с конкурирующими frontier‑моделями».
— Brendan Foody, CEO Mercor

OpenAI отдельно подчёркивает прогресс в создании и редактировании электронных таблиц, презентаций и документов. Во внутреннем бенчмарке по задачам моделирования в таблицах — на уровне того, что мог бы делать младший аналитик инвестбанка, — GPT‑5.4 набирает в среднем 87.3% против 68.4% у GPT‑5.2.

С презентациями картина тоже показательная. В наборе промптов для оценки слайдов люди‑оценщики предпочитали материалы, созданные GPT‑5.4, в 68.0% случаев по сравнению с GPT‑5.2. Причины вполне земные: более сильная визуальная подача, большее разнообразие, лучшее использование генерации изображений. Не магия — просто результат выглядит убедительнее.

Что всё это значит для российского рынка? По сути, GPT‑5.4 — это серьёзная база для enterprise‑решений, где нужны AI‑агенты, автоматизация знаний, работа с документами, оркестрация инструментов и длинный контекст. Но сама по себе модель не решает всё. Нужны продуманная интеграция, контроль доступа, защита данных, память, маршрутизация задач и механизмы проверки. Иначе, ну, получится дорогой и очень разговорчивый помощник.

Именно поэтому при внедрении таких моделей компании обычно смотрят шире: на безопасность AI‑агентов, архитектуру, агентную память, RAG, мультиагентную координацию и соответствие внутренним требованиям. В этом и состоит реальная ценность GPT‑5.4: она не просто отвечает лучше, а становится более пригодной для построения надёжных AI‑систем в бизнесе.