Llama 4 от Meta: нативно мультимодальные AI-модели, MoE-архитектура и новый этап развития AI-агентов
Семейство Llama 4: старт новой эпохи нативно мультимодального ИИ
5 апреля 2025 г. • 12 минут чтения
Llama 4 — это не просто очередное обновление линейки. По сути, Meta открывает новую главу: модели стали нативно мультимодальными, перешли на архитектуру mixture-of-experts и заметно продвинулись в длинном контексте, визуальном понимании и прикладной эффективности. Если говорить без лишнего пафоса — да, это действительно важный релиз.
Ключевые выводы
- Meta представила первые модели семейства Llama 4, рассчитанные на более персонализированные мультимодальные сценарии.
- Llama 4 Scout — модель с 17 млрд активных параметров и 16 экспертами. Она помещается на одном GPU NVIDIA H100, поддерживает контекст до 10 миллионов токенов и, по заявлению Meta, превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по ряду общепринятых бенчмарков.
- Llama 4 Maverick — модель с 17 млрд активных параметров и 128 экспертами. Она обходит GPT-4o и Gemini 2.0 Flash на ряде мультимодальных тестов, а в reasoning- и coding-задачах показывает результаты, сопоставимые с DeepSeek v3, при меньшем числе активных параметров. Экспериментальная chat-версия получила ELO 1417 в LMArena.
- Обе модели усиливались через distillation от Llama 4 Behemoth — teacher-модели с 288 млрд активных параметров и почти 2 трлн параметров в сумме. По данным Meta, Behemoth превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro на ряде STEM-бенчмарков.
- Llama 4 Scout и Llama 4 Maverick уже доступны на llama.com и Hugging Face. Meta AI на базе Llama 4 можно попробовать в WhatsApp, Messenger, Instagram Direct и в веб-версии.
Чем интересен этот релиз для рынка? Тем, что Llama 4 — это уже не просто LLM «для текста». Это фундамент для мультимодальных AI-систем, AI-агентов и корпоративной автоматизации, где модель должна одновременно понимать документы, изображения, длинные цепочки контекста и пользовательские инструкции. А это, между прочим, уже территория реальных внедрений, а не красивых демо.
Для компаний, которые смотрят в сторону разработки AI-агентов и автоматизации, релиз особенно показателен: рынок явно движется к моделям, которые умеют работать в сложных, многослойных сценариях — с памятью, инструментами, визуальными входами и длинной историей взаимодействия.
Что именно представила Meta
Meta выпустила две основные модели: Llama 4 Scout и Llama 4 Maverick. Обе — open-weight, обе — нативно мультимодальные, обе построены на MoE-архитектуре. Плюс компания показала предварительный обзор Llama 4 Behemoth, самой мощной модели в семействе, которая пока не выпущена публично.
Scout — более компактная и очень длинноконтекстная модель. Maverick — основной «рабочий зверь» для ассистентов, чатов, мультимодальных приложений и задач, где важен баланс между качеством и стоимостью. Behemoth — тяжёлая teacher-модель, на которой, грубо говоря, «натаскивали» младшие версии. Всё довольно логично. И довольно амбициозно.
Meta отдельно подчёркивает, что открытость экосистемы остаётся для неё принципиальной. Компания по-прежнему делает ставку на open source/open-weight подход, считая, что именно он ускоряет инновации и помогает разработчикам строить новые продукты быстрее. В корпоративной среде это особенно важно: открытые модели проще адаптировать под внутренние процессы, требования к безопасности и отраслевые ограничения.
Предобучение: ставка на MoE и мультимодальность
Llama 4 — первые модели Meta, построенные на архитектуре mixture of experts (MoE). В такой схеме для каждого токена активируется не вся модель целиком, а только часть параметров. За счёт этого обучение и inference становятся вычислительно эффективнее, а качество при сопоставимом бюджете FLOPs — выше, чем у dense-моделей.
Например, у Llama 4 Maverick — 17 млрд активных параметров, но 400 млрд параметров в сумме. Для inference Meta использует чередование dense-слоёв и MoE-слоёв. Внутри MoE-слоя работают 128 routed experts и один shared expert: каждый токен проходит через shared expert и дополнительно направляется к одному из routed experts. И вот тут начинается инженерная магия — в памяти хранится всё, но реально активируется только нужная часть модели. Это снижает стоимость обслуживания и задержки.
Если вам близка тема архитектуры AI-агентов, то подход Meta важен не только сам по себе. Он показывает, куда движется индустрия: к системам, где производительность, маршрутизация вычислений, стоимость inference и масштабируемость становятся не менее важными, чем «сырая» мощность модели.
Отдельный большой шаг — нативная мультимодальность. Meta использует early fusion, то есть текстовые и визуальные токены объединяются в единую backbone-модель на раннем этапе. Это позволяет совместно предобучать систему на больших объёмах неразмеченных текстовых, графических и видеоданных. Не костыль сверху, не отдельный модуль «для картинок», а единая модель. Разница, честно говоря, принципиальная.
Vision encoder тоже доработали. Он основан на MetaCLIP, но обучался отдельно в связке с замороженной моделью Llama, чтобы лучше подстроить визуальное представление под LLM-часть. Плюс Meta представила собственную технику настройки гиперпараметров — MetaP, которая помогает надёжно переносить настройки между разными batch size, шириной, глубиной модели и числом токенов обучения.
Модели предобучались на 200 языках, причём более чем для 100 языков использовалось свыше 1 млрд токенов на язык. В сумме объём мультиязычных токенов в Llama 4 примерно в 10 раз больше, чем в Llama 3. Это важно для глобальных AI-продуктов, а для enterprise-сценариев — ещё важнее, потому что реальный бизнес редко живёт в одном языке и в одном формате данных. Всё смешано. Всегда.
Meta также сообщает, что использовала FP8 без потери качества и достигала высокой утилизации FLOPs: при предобучении Llama 4 Behemoth на 32K GPU компания получила 390 TFLOPs/GPU. Общий обучающий датасет превысил 30 трлн токенов — более чем вдвое больше смеси для Llama 3.
После pre-training компания провела этап, который называет mid-training, чтобы усилить базовые способности моделей и расширить поддержку длинного контекста. Именно это, в частности, помогло открыть для Scout контекстное окно в 10 миллионов токенов. Да, десять миллионов. Звучит почти неприлично много — но для некоторых сценариев это уже не роскошь, а практическая необходимость.
Post-training: меньше шума, больше качества
В post-training Meta заметно изменила подход. Вместо тяжёлого и перегруженного пайплайна компания использовала последовательность: lightweight SFT → online RL → lightweight DPO. Идея в том, чтобы не «зажать» модель слишком ранним supervised-обучением и не сузить пространство поиска перед reinforcement learning.
По наблюдениям Meta, избыток SFT и DPO может ухудшать итоговую точность в reasoning, coding и math-задачах. Поэтому компания отфильтровала более 50% простых данных, используя модели Llama как judge, и оставила более сложный набор. Затем на этапе мультимодального online RL акцент делался на трудных prompts, что дало заметный прирост качества.
Более того, Meta применила стратегию непрерывного online RL: модель не просто обучалась, а параллельно использовалась для фильтрации новых данных, причём сохранялись в основном prompts средней и высокой сложности. Такой подход улучшил компромисс между вычислительными затратами и качеством. А уже потом lightweight DPO помогло аккуратно обработать corner cases и выровнять разговорные навыки модели.
Звучит технично? Да. Но смысл довольно земной: меньше бесполезного шума в данных, больше внимания к сложным примерам, лучше итоговое поведение модели. Иногда всё упирается именно в это — не в размер, а в дисциплину обучения.
Llama 4 Maverick: основная мультимодальная модель
Llama 4 Maverick — это универсальная модель с 17 млрд активных параметров, 128 экспертами и 400 млрд параметров в сумме. Meta позиционирует её как основную модель для general assistant, чатов, понимания изображений и креативного письма.
По заявлению компании, Maverick превосходит GPT-4o и Gemini 2.0 Flash на ряде бенчмарков по coding, reasoning, multilingual, long-context и image-задачам, а также остаётся конкурентоспособной по отношению к более крупным моделям вроде DeepSeek v3.1. При этом она предлагает лучшее в классе соотношение производительности и стоимости.
Для бизнеса это особенно интересно в контексте построения AI-помощников, внутренних copilot-систем и мультимодальных интерфейсов. Если модель хорошо работает с текстом, изображениями, длинным контекстом и при этом не разоряет на inference — это уже серьёзный кандидат на внедрение. Не серебряная пуля, конечно. Но очень крепкий инструмент.
Llama 4 Scout: компактнее, но с гигантским контекстом
Llama 4 Scout — модель с 17 млрд активных параметров, 16 экспертами и 109 млрд параметров в сумме. Её главная фишка — контекст до 10 миллионов токенов. Это резкий скачок по сравнению со 128K у Llama 3.
Практические последствия тут огромные: суммаризация больших массивов документов, анализ длинной пользовательской истории, работа с объёмными codebase, сложные retrieval-задачи, сценарии с долговременной памятью. В мире агентной памяти и RAG это особенно заметно: чем больше полезного контекста модель может удерживать и обрабатывать, тем богаче и надёжнее становятся агентные сценарии.
Scout обучалась и дообучалась с длиной контекста 256K, что улучшило её способность к обобщению на ещё более длинных последовательностях. Meta демонстрирует сильные результаты на retrieval-задачах формата needle-in-a-haystack и на оценках cumulative negative log-likelihood для 10 миллионов токенов кода.
С архитектурной стороны ключевая инновация — interleaved attention layers без классических positional embeddings в части слоёв, плюс temperature scaling для attention во время inference. Этот подход Meta называет iRoPE. Название, скажем прямо, не самое поэтичное, но суть важнее: архитектура заточена под устойчивую работу на экстремально длинном контексте.
Кроме того, Scout показывает сильные результаты в image grounding — то есть умеет соотносить текстовый запрос с конкретными визуальными объектами и областями изображения. Это повышает точность visual question answering и делает модель полезнее в прикладных мультимодальных интерфейсах.
Работа с изображениями и несколькими визуальными входами
Meta обучала обе модели на широком наборе изображений и отдельных кадров из видео, чтобы расширить визуальное понимание, включая временные зависимости и связанные сцены. Благодаря этому модели умеют работать с multi-image input в сочетании с текстовыми prompts для задач visual reasoning и visual understanding.
На этапе pre-training модели обучались на объёме до 48 изображений, а в post-training Meta тестировала сценарии с восемью изображениями одновременно. Для пользовательских приложений, AI-ассистентов и корпоративных интерфейсов это открывает массу сценариев: анализ документов с иллюстрациями, сравнение нескольких изображений, визуальная проверка объектов, поддержка операторов и так далее. Список длинный. И, скорее всего, будет только расти.
Llama 4 Behemoth: teacher-модель почти на 2 трлн параметров
Отдельного внимания заслуживает Llama 4 Behemoth. Это мультимодальная MoE-модель с 288 млрд активных параметров, 16 экспертами и почти 2 трлн параметров в сумме. Meta пока не выпускает её публично, поскольку обучение ещё продолжается, но уже использует как teacher-модель для distillation.
По данным компании, Behemoth показывает state-of-the-art результаты среди non-reasoning-моделей на математических, мультиязычных и image-бенчмарках. Именно она использовалась для codistillation Llama 4 Maverick. Meta также разработала новую функцию потерь для distillation, которая динамически балансирует soft и hard targets в процессе обучения.
Иными словами, младшие модели не просто «уменьшили» — их довольно хитро обучали на сигналах от более мощной системы. Это помогает переносить часть качества teacher-модели в более дешёвые и практичные варианты. Для индустрии это важный паттерн: большие модели учат маленькие, а маленькие потом идут в продакшен. Красиво? Да. Экономично? Тоже да.
Post-training Behemoth оказался отдельным испытанием. Meta сообщает, что пришлось отбросить 95% SFT-данных, чтобы добиться нужной концентрации качества. Затем использовался lightweight SFT и крупномасштабный RL с акцентом на сложные prompts, динамическую фильтрацию примеров с нулевым advantage и смешивание задач в training batches. Для модели такого масштаба компания также переработала RL-инфраструктуру и получила примерно 10-кратный рост эффективности обучения по сравнению с предыдущими поколениями.
Безопасность, red teaming и снижение рисков
Meta подчёркивает, что разрабатывала Llama 4 с учётом мер безопасности на всех этапах — от фильтрации данных в pre-training до системных защит на уровне применения модели. Это особенно важно для компаний, которые строят production-системы, AI-агентов и автоматизацию в регулируемых средах. Там вопрос «насколько умная модель?» быстро сменяется вопросом «а насколько она управляемая и безопасная?»
Если смотреть на это с прикладной стороны, то зрелое внедрение почти всегда требует не только модели, но и отдельного слоя контроля: политики доступа, фильтрации, аудита, мониторинга и соответствия требованиям. В этом контексте полезно учитывать практики безопасности AI-агентов и AI compliance, особенно если речь идёт о корпоративных данных, персональной информации или автоматизированных решениях с высоким уровнем ответственности.
Меры на этапе pre-training и post-training
На этапе pre-training Meta использует фильтрацию данных и другие защитные меры, чтобы снизить риск попадания опасного или нежелательного контента в обучающую смесь. На этапе post-training применяются дополнительные техники, направленные на соответствие политике безопасности и повышение полезности модели для разработчиков и конечных пользователей.
Инструменты системного уровня
Meta также развивает и открывает защитные инструменты, которые можно использовать вместе с Llama:
- Llama Guard — модель для проверки безопасности входов и выходов на основе таксономии угроз, разработанной совместно с MLCommons.
- Prompt Guard — классификатор, обнаруживающий jailbreak-атаки и prompt injection.
- CyberSecEval — набор оценок, помогающий анализировать и снижать риски кибербезопасности в generative AI-системах.
Meta отмечает, что такие инструменты особенно полезны, когда их можно адаптировать под конкретное приложение. И это, пожалуй, ключевая мысль: безопасность ИИ не бывает универсальной коробкой «включил и забыл». Всё зависит от контекста использования. Увы, волшебной кнопки тут нет.
Оценки и red teaming
Компания проводит систематическое тестирование моделей в контролируемых сценариях, а также stress-тест с помощью adversarial dynamic probing. Один из новых инструментов — GOAT (Generative Offensive Agent Testing), который моделирует многоходовые действия adversarial-акторов и помогает быстрее находить уязвимости. За счёт автоматизации часть типовых проверок снимается с human red team, и эксперты могут сосредоточиться на новых и более сложных направлениях атак.
Работа с bias и спорными темами
Meta отдельно признаёт, что современные LLM исторически сталкивались с проблемой bias, в том числе в политических и социальных вопросах. Компания заявляет, что стремится сделать Llama более нейтральной, более отзывчивой и менее склонной к неравномерным отказам в ответах.
По данным Meta, Llama 4 реже отказывается отвечать на спорные политические и социальные темы, чем Llama 3.3: доля отказов снизилась примерно с 7% до менее 2%. Также уменьшилась доля неравномерных отказов, а частота ответов с выраженным политическим уклоном стала сопоставима с Grok и примерно вдвое ниже, чем у Llama 3.3 на спорном наборе тем.
Это, конечно, не означает, что проблема решена окончательно. Вряд ли кто-то в индустрии вообще может честно сказать, что решил её до конца. Но движение в сторону более сбалансированного поведения модели — важный сигнал.
Почему это важно для AI-агентов и enterprise-внедрений
Llama 4 интересна не только как релиз Meta. Она важна как индикатор того, куда движется весь рынок: к мультимодальным моделям, длинной памяти, более дешёвому inference, маршрутизации вычислений через MoE и более зрелым подходам к безопасности.
Для enterprise-среды это означает следующее:
- появляется больше возможностей для построения мультимодальных AI-агентов, которые работают с текстом, изображениями и длинным контекстом;
- становится реалистичнее внедрение агентных систем в документы, поддержку, аналитику, разработку и внутренние knowledge workflows;
- растёт значение архитектуры, памяти, оркестрации и контроля — сама модель уже не единственный центр системы;
- безопасность, соответствие требованиям и управляемость становятся обязательной частью внедрения, а не «добавим потом».
И вот тут начинается самое интересное: сильная модель — это только половина дела. Вторая половина — как встроить её в процессы, данные, политики и реальные бизнес-ограничения. Иногда именно эта половина и оказывается сложнее. Даже чаще, чем хотелось бы.
Итог
Llama 4 Scout и Llama 4 Maverick задают новый ориентир для open-weight мультимодальных моделей. Scout впечатляет экстремально длинным контекстом и компактностью, Maverick — балансом качества, цены и мультимодальных возможностей, а Behemoth показывает, до какого масштаба Meta готова доводить teacher-модели ради следующего поколения систем.
Если коротко: Llama 4 — это уже не просто «ещё одна LLM». Это платформа для нового класса AI-приложений, где важны мультимодальность, агентность, длинная память, безопасность и экономическая эффективность. И да, похоже, именно в эту сторону рынок теперь и побежит. Быстро.
Скачать Llama 4 Scout и Llama 4 Maverick можно на llama.com и Hugging Face. Попробовать Meta AI на базе Llama 4 можно в WhatsApp, Messenger, Instagram Direct и на сайте Meta.AI.
