Сравнение передовых AI-моделей: GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6 и Grok 4.20 в реальных тестах
Введение и условия тестирования
За последние недели рынок передовых AI-моделей заметно встряхнуло: почти все крупные лаборатории обновили свои флагманские системы. И вот тут начинается самое интересное. Формально никто толком не договорился, что считать новым «поколением» модели, но по факту скачок возможностей у свежих версий настолько ощутим, что сравнение напрашивается само собой.
Собственно, этим и займёмся: посмотрим, как GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6 и Grok 4.20 ведут себя в одинаковых практических задачах. Не в вакууме, не в рекламных бенчмарках, а в сценариях, где важны 3D-рендеринг, логика, точность исполнения и внимание к мелочам. Для компаний, которые рассматривают разработку AI-агентов и автоматизацию, такие сравнения особенно полезны: сухие цифры — это одно, а поведение модели в реальной задаче — совсем другое.
Участники сравнения
GPT-5.4 от OpenAI — самое свежее обновление в линейке. Модель пришла на смену GPT-5.2, хотя путаницы с неймингом, если честно, хватает: незадолго до этого вышла ещё и GPT-5.3 Instant, но она ориентирована скорее на быстрые ответы и массовый доступ, а не на роль полноценного преемника. GPT-5.4 тестировалась в режиме thinking, включая Pro-вариант.
Gemini 3.1 Pro — обновлённая флагманская модель Google. Здесь, к счастью, с названиями всё чуть понятнее. По заявленным улучшениям это тоже серьёзный шаг вперёд относительно предыдущей версии.
Claude Opus 4.6 от Anthropic — продолжение сильной линейки Opus, которую разработчики давно ценят за аккуратность, код и общую «вменяемость» в сложных задачах.
Grok 4.20 Beta от xAI — модель с названием, которое у одних вызывает ухмылку, у других — усталый вздох. Но если отбросить маркетинговую мишуру, прогресс по сравнению с прошлой версией у неё, похоже, действительно есть. Правда, без model card и официальных бенчмарков оценка здесь в значительной степени опирается на практические впечатления. Да, немного на глаз. Ну а как ещё.
Как именно проводилось тестирование
Чтобы сравнение было честным, важно зафиксировать не только сами модели, но и среду запуска, тарифы и режимы работы. В enterprise-контексте это вообще критично: одна и та же модель может вести себя по-разному в зависимости от интерфейса, лимитов и доступных функций. Это особенно важно, если речь идёт про архитектуру AI-агентов, где стабильность и предсказуемость поведения модели влияют уже не на красивый демо-ролик, а на бизнес-процесс.
- GPT-5.4 запускалась через веб-интерфейс чата в режиме extended thinking по подписке Pro за $200 в месяц.
- Gemini 3.1 Pro использовалась попеременно через веб-чат и Google AI Studio по подписке Ultra за $250 в месяц.
- Claude Opus 4.6 тестировалась через веб-интерфейс в режиме extended thinking по тарифу Max 5x за $100 в месяц.
- Grok 4.20 Beta использовалась через веб-интерфейс xAI по тарифу за $30 в месяц.
Отдельный нюанс касается Grok. У xAI есть более мощная версия, но доступ к ней стоит уже $300 в месяц. Её сознательно не включали в тест: остальные модели доступны и на более дешёвых тарифах, пусть и с ограничениями по лимитам. Иначе сравнение получилось бы слегка перекошенным — не по возможностям моделей, а по толщине кошелька.
Итак, вводные понятны. Поехали дальше.
Тест симуляции 3D-принтера
Тест 1: симуляция 3D-печати
Первое задание выглядело довольно прямолинейно, но на деле оно коварное. Модели нужно было создать реалистичную 3D-симуляцию принтера, который печатает одну из трёх фигур — квадрат, круг или треугольник — послойно, с визуализацией процесса, управлением скоростью и запуском прямо в Chrome в рамках одного скрипта.
Почему этот тест вообще интересен? Потому что он проверяет сразу несколько вещей: пространственное мышление, понимание механики 3D-печати, умение строить сцену, а ещё — внимание к деталям. Многие современные модели уже умеют сделать что-то «похожее», но на нюансах часто и сыплются: infill, движение направляющих, логика послойного построения, а не просто наращивание геометрии сверху. Мелочь? Не совсем.
Результат GPT-5.4
Сильные стороны: GPT-5.4 выдала почти образцовую симуляцию. Послойная печать выглядела действительно правдоподобно, внутреннее заполнение было реализовано корректно, а линия между экструдером и катушкой филамента не «ломалась» во время анимации.
Слабые стороны: Основание принтера оказалось ориентировано неверно — вместо того, чтобы лежать под столом, оно торчало вверх и частично перекрывало обзор печатаемой формы.
Итог: Если не придираться к этой досадной ошибке с ориентацией, результат GPT-5.4 был лучшим в тесте. Именно здесь симуляция больше всего походила на реальную 3D-печать, а не на декоративную анимацию «про принтер». Разница, в общем, чувствуется сразу.
Результат Gemini 3.1 Pro
Сильные стороны: Gemini хорошо показала сам момент экструзии — пластик выходил именно из той точки сопла, откуда и должен был выходить в реальном устройстве.
Слабые стороны: Полноценной модели принтера фактически не было. Сцена ограничилась столом и соплом, без рамы, без направляющих, без общей конструкции. Слои тоже выглядели непоследовательно, а замкнутая форма так и не сформировалась как следует.
Итог: Результат получился скорее концептуальным, чем инженерно убедительным. Вроде бы идея угадывается, но до реалистичной симуляции не дотягивает. Если честно, это больше напоминало художественную интерпретацию 3D-принтера, чем сам принтер.
Результат Grok 4.20
Сильные стороны: У Grok неплохо выглядело сопло, была анимация простоя с лёгким движением вверх-вниз, а сама модель оказалась визуально аккуратной. Цветовая палитра, кстати, вышла неожиданно приятной — светлее и живее, чем у конкурентов.
Слабые стороны: Не хватало gantry-системы, которая должна удерживать сопло, а слои выглядели грубовато — скорее как стопка оладий, чем как результат реального процесса печати.
Итог: Попытка достойная, но не более того. Визуально симпатично, технически — заметно слабее лидеров. Слои были различимы, однако логика их построения оставалась упрощённой.
Результат Claude Opus 4.6
Сильные стороны: Claude выдала очень приятный интерфейс, качественную модель принтера и даже добавила live-вывод G-code — ход, которого, наверное, мало кто ожидал. Это выглядело живо и по-хорошему nerdy.
Слабые стороны: На фоне сильной визуальной части сама симуляция печати оказалась слабее: infill не реагировал на изменение скорости, а слои скорее просто накапливались, чем прорисовывались реалистично.
Итог: Claude Opus 4.6 впечатлила упаковкой и вниманием к интерфейсу, но по физике процесса уступила GPT-5.4. Для задач, где важны не только красивые демо, но и надёжная логика исполнения — например, в безопасности AI-агентов и системах с проверяемым поведением, — такая разница может быть принципиальной.
Тесты квартиры из Seinfeld и футбольной игры
Тест 2: квартира Джерри из Seinfeld
Следующее задание уже не про механику, а про пространственную точность, детализацию и способность модели опираться на культурный контекст. Моделям предложили создать сцену квартиры Джерри из Seinfeld в Three.js: с тёплым светом, возможностью перемещаться по интерьеру и характерными деталями из сериала — постерами, предметами, узнаваемыми элементами обстановки.
Тест интересен сразу по двум причинам. Во-первых, он показывает, насколько модель умеет строить 3D-сцену с навигацией и адекватным освещением. Во-вторых, проверяет, способна ли она подтянуть специфические детали из внешних знаний или внутренней памяти. В прикладных системах это напрямую перекликается с тем, как работают агентная память и RAG: модель должна не просто «рисовать комнату», а извлекать релевантный контекст и использовать его по делу.
Результат GPT-5.4
Сильные стороны: Самая насыщенная по деталям сцена из всех. Постеры, подписи, элементы на холодильнике, городской skyline за окном — всё это добавляло ощущение живого пространства. Навигация работала, цвета были приятными, сцена смотрелась цельно.
Слабые стороны: Первый вариант вообще не загрузился и потребовал доработки. Кроме того, планировка квартиры не совпадала с оригиналом, а местами появлялись странные артефакты.
Итог: GPT-5.4 снова оказалась впереди по общей насыщенности и вниманию к мелочам. Да, не без шероховатостей. Но сцена ощущалась самой «обжитой».
Результат Gemini 3.1 Pro
Сильные стороны: Быстрая генерация и несколько удачных деталей — например, винтажный Macintosh и городской вид в окне.
Слабые стороны: Сцене явно не хватало наполнения. Освещение было средним, а интерьер выглядел слишком пустым, почти стерильным.
Итог: Gemini справилась быстро, но без особой глубины. Некоторые узнаваемые элементы были на месте, однако в целом квартира больше походила на заготовку, чем на убедительную реконструкцию.
Результат Grok 4.20
Сильные стороны: После дополнительного уточнения Grok всё-таки перешла от набора статичных картинок к полноценной 3D-сцене.
Слабые стороны: Освещение и детализация оказались самыми слабыми среди участников.
Итог: Это был наименее убедительный результат теста. Сцену модель построила, но без той плотности деталей и качества исполнения, которых ждёшь от действительно сильной frontier-модели.
Результат Claude Opus 4.6
Сильные стороны: Очень чистые ассеты, аккуратный свет, хорошо сделанные отдельные объекты — особенно лампы и винтажный Mac.
Слабые стороны: Планировка квартиры почти не напоминала оригинал, а характерных деталей из сериала было меньше, чем хотелось бы.
Итог: Claude снова показала сильную визуальную дисциплину: сцена выглядела опрятно и качественно. Но именно как реконструкция квартиры из Seinfeld результат оказался не слишком точным.
Если подвести промежуточный итог, ни одна модель не смогла по-настоящему точно воспроизвести планировку квартиры. Зато почти все лучше справились с отдельными узнаваемыми предметами — зелёным диваном, велосипедом, винтажным компьютером. То есть локальные детали даются моделям лучше, чем целостная пространственная композиция. Любопытно. И немного показательно.
Тест 3: симулятор квотербека в американском футболе
А вот здесь стало по-настоящему весело. Моделям предложили создать простую 3D-игру в браузере: стартовый экран, выбор роли — квотербек или ресивер, бросок мяча, ловля, базовая физика, анимации, и всё это в одном HTML-скрипте. Задача уже не про отдельную сцену, а про связку графики, логики, управления и игрового цикла.
И именно в этом тесте три из четырёх моделей показали результат, который действительно производит впечатление. Не в духе «ну да, что-то сгенерировала», а в духе «ладно, это уже похоже на следующий уровень». Grok, увы, не смогла выдать рабочий игровой процесс, но остальные участники выступили сильно.
Claude Opus 4.6 показала, пожалуй, самый эффектный визуально результат. Персонажи были хорошо смоделированы и анимированы, логика работала корректно, хотя точный бросок и успешный приём мяча требовали заметной сноровки. Поле было укороченным, но стадион, стойки ворот и трибуны добавляли сцене убедительности.
Gemini 3.1 Pro выбрала более low-poly стиль, но это не помешало качеству. Игроки были анимированы достойно, поле отрисовано на полную длину, механика броска за квотербека работала очень хорошо. Особенно запомнилась возможность кинуть почти Hail Mary через всё поле — пусть маршрут ресивера и не всегда соответствовал такому броску.
Даже без полного разбора оставшихся результатов уже видно главное: в задачах, где нужно собрать воедино 3D-графику, интерактивность, физику и логику, современные передовые модели заметно прибавили. Для бизнеса это важный сигнал. Такие способности напрямую влияют на то, насколько быстро можно прототипировать интерфейсы, симуляторы, внутренние инструменты и даже сложные мультиагентные системы, где разные компоненты должны координироваться между собой, а не просто красиво отвечать в чате.
И да, один вывод здесь напрашивается сам собой: «фронтир» сегодня — это уже не только про текст. Это про среду, действие, память, логику, интерфейс и устойчивость поведения. А дальше начинается самое важное — как всё это упаковать в рабочие решения с контролем качества, безопасностью и соответствием требованиям. Но это уже разговор про внедрение, а не про шоу на арене моделей.
