Семейство Llama 4: старт новой эпохи нативно мультимодального ИИ

5 апреля 2025 г. • 12 минут чтения

Llama 4 — это не просто очередное обновление линейки. По сути, Meta открывает новую главу: модели стали нативно мультимодальными, перешли на архитектуру mixture-of-experts и заметно продвинулись в длинном контексте, визуальном понимании и прикладной эффективности. Если говорить без лишнего пафоса — да, это действительно важный релиз.

Ключевые выводы

Meta представила первые модели семейства Llama 4, рассчитанные на более персонализированные мультимодальные сценарии.
Llama 4 Scout — модель с 17 млрд активных параметров и 16 экспертами. Она помещается на одном GPU NVIDIA H100, поддерживает контекст до 10 миллионов токенов и, по заявлению Meta, превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по ряду общепринятых бенчмарков.
Llama 4 Maverick — модель с 17 млрд активных параметров и 128 экспертами. Она обходит GPT-4o и Gemini 2.0 Flash на ряде мультимодальных тестов, а в reasoning- и coding-задачах показывает результаты, сопоставимые с DeepSeek v3, при меньшем числе активных параметров. Экспериментальная chat-версия получила ELO 1417 в LMArena.
Обе модели усиливались через distillation от Llama 4 Behemoth — teacher-модели с 288 млрд активных параметров и почти 2 трлн параметров в сумме. По данным Meta, Behemoth превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro на ряде STEM-бенчмарков.
Llama 4 Scout и Llama 4 Maverick уже доступны на llama.com и Hugging Face. Meta AI на базе Llama 4 можно попробовать в WhatsApp, Messenger, Instagram Direct и в веб-версии.

Чем интересен этот релиз для рынка? Тем, что Llama 4 — это уже не просто LLM «для текста». Это фундамент для мультимодальных AI-систем, AI-агентов и корпоративной автоматизации, где модель должна одновременно понимать документы, изображения, длинные цепочки контекста и пользовательские инструкции. А это, между прочим, уже территория реальных внедрений, а не красивых демо.

Для компаний, которые смотрят в сторону разработки AI-агентов и автоматизации, релиз особенно показателен: рынок явно движется к моделям, которые умеют работать в сложных, многослойных сценариях — с памятью, инструментами, визуальными входами и длинной историей взаимодействия.

Что именно представила Meta

Meta выпустила две основные модели: Llama 4 Scout и Llama 4 Maverick. Обе — open-weight, обе — нативно мультимодальные, обе построены на MoE-архитектуре. Плюс компания показала предварительный обзор Llama 4 Behemoth, самой мощной модели в семействе, которая пока не выпущена публично.

Scout — более компактная и очень длинноконтекстная модель. Maverick — основной «рабочий зверь» для ассистентов, чатов, мультимодальных приложений и задач, где важен баланс между качеством и стоимостью. Behemoth — тяжёлая teacher-модель, на которой, грубо говоря, «натаскивали» младшие версии. Всё довольно логично. И довольно амбициозно.

Meta отдельно подчёркивает, что открытость экосистемы остаётся для неё принципиальной. Компания по-прежнему делает ставку на open source/open-weight подход, считая, что именно он ускоряет инновации и помогает разработчикам строить новые продукты быстрее. В корпоративной среде это особенно важно: открытые модели проще адаптировать под внутренние процессы, требования к безопасности и отраслевые ограничения.

Предобучение: ставка на MoE и мультимодальность

Llama 4 — первые модели Meta, построенные на архитектуре mixture of experts (MoE). В такой схеме для каждого токена активируется не вся модель целиком, а только часть параметров. За счёт этого обучение и inference становятся вычислительно эффективнее, а качество при сопоставимом бюджете FLOPs — выше, чем у dense-моделей.

Например, у Llama 4 Maverick — 17 млрд активных параметров, но 400 млрд параметров в сумме. Для inference Meta использует чередование dense-слоёв и MoE-слоёв. Внутри MoE-слоя работают 128 routed experts и один shared expert: каждый токен проходит через shared expert и дополнительно направляется к одному из routed experts. И вот тут начинается инженерная магия — в памяти хранится всё, но реально активируется только нужная часть модели. Это снижает стоимость обслуживания и задержки.

Если вам близка тема архитектуры AI-агентов, то подход Meta важен не только сам по себе. Он показывает, куда движется индустрия: к системам, где производительность, маршрутизация вычислений, стоимость inference и масштабируемость становятся не менее важными, чем «сырая» мощность модели.

Отдельный большой шаг — нативная мультимодальность. Meta использует early fusion, то есть текстовые и визуальные токены объединяются в единую backbone-модель на раннем этапе. Это позволяет совместно предобучать систему на больших объёмах неразмеченных текстовых, графических и видеоданных. Не костыль сверху, не отдельный модуль «для картинок», а единая модель. Разница, честно говоря, принципиальная.

Vision encoder тоже доработали. Он основан на MetaCLIP, но обучался отдельно в связке с замороженной моделью Llama, чтобы лучше подстроить визуальное представление под LLM-часть. Плюс Meta представила собственную технику настройки гиперпараметров — MetaP, которая помогает надёжно переносить настройки между разными batch size, шириной, глубиной модели и числом токенов обучения.

Модели предобучались на 200 языках, причём более чем для 100 языков использовалось свыше 1 млрд токенов на язык. В сумме объём мультиязычных токенов в Llama 4 примерно в 10 раз больше, чем в Llama 3. Это важно для глобальных AI-продуктов, а для enterprise-сценариев — ещё важнее, потому что реальный бизнес редко живёт в одном языке и в одном формате данных. Всё смешано. Всегда.

Meta также сообщает, что использовала FP8 без потери качества и достигала высокой утилизации FLOPs: при предобучении Llama 4 Behemoth на 32K GPU компания получила 390 TFLOPs/GPU. Общий обучающий датасет превысил 30 трлн токенов — более чем вдвое больше смеси для Llama 3.

После pre-training компания провела этап, который называет mid-training, чтобы усилить базовые способности моделей и расширить поддержку длинного контекста. Именно это, в частности, помогло открыть для Scout контекстное окно в 10 миллионов токенов. Да, десять миллионов. Звучит почти неприлично много — но для некоторых сценариев это уже не роскошь, а практическая необходимость.

Post-training: меньше шума, больше качества

В post-training Meta заметно изменила подход. Вместо тяжёлого и перегруженного пайплайна компания использовала последовательность: lightweight SFT → online RL → lightweight DPO. Идея в том, чтобы не «зажать» модель слишком ранним supervised-обучением и не сузить пространство поиска перед reinforcement learning.

По наблюдениям Meta, избыток SFT и DPO может ухудшать итоговую точность в reasoning, coding и math-задачах. Поэтому компания отфильтровала более 50% простых данных, используя модели Llama как judge, и оставила более сложный набор. Затем на этапе мультимодального online RL акцент делался на трудных prompts, что дало заметный прирост качества.

Более того, Meta применила стратегию непрерывного online RL: модель не просто обучалась, а параллельно использовалась для фильтрации новых данных, причём сохранялись в основном prompts средней и высокой сложности. Такой подход улучшил компромисс между вычислительными затратами и качеством. А уже потом lightweight DPO помогло аккуратно обработать corner cases и выровнять разговорные навыки модели.

Звучит технично? Да. Но смысл довольно земной: меньше бесполезного шума в данных, больше внимания к сложным примерам, лучше итоговое поведение модели. Иногда всё упирается именно в это — не в размер, а в дисциплину обучения.

Llama 4 Maverick: основная мультимодальная модель

Llama 4 Maverick — это универсальная модель с 17 млрд активных параметров, 128 экспертами и 400 млрд параметров в сумме. Meta позиционирует её как основную модель для general assistant, чатов, понимания изображений и креативного письма.

По заявлению компании, Maverick превосходит GPT-4o и Gemini 2.0 Flash на ряде бенчмарков по coding, reasoning, multilingual, long-context и image-задачам, а также остаётся конкурентоспособной по отношению к более крупным моделям вроде DeepSeek v3.1. При этом она предлагает лучшее в классе соотношение производительности и стоимости.

Для бизнеса это особенно интересно в контексте построения AI-помощников, внутренних copilot-систем и мультимодальных интерфейсов. Если модель хорошо работает с текстом, изображениями, длинным контекстом и при этом не разоряет на inference — это уже серьёзный кандидат на внедрение. Не серебряная пуля, конечно. Но очень крепкий инструмент.

Llama 4 Scout: компактнее, но с гигантским контекстом

Llama 4 Scout — модель с 17 млрд активных параметров, 16 экспертами и 109 млрд параметров в сумме. Её главная фишка — контекст до 10 миллионов токенов. Это резкий скачок по сравнению со 128K у Llama 3.

Практические последствия тут огромные: суммаризация больших массивов документов, анализ длинной пользовательской истории, работа с объёмными codebase, сложные retrieval-задачи, сценарии с долговременной памятью. В мире агентной памяти и RAG это особенно заметно: чем больше полезного контекста модель может удерживать и обрабатывать, тем богаче и надёжнее становятся агентные сценарии.

Scout обучалась и дообучалась с длиной контекста 256K, что улучшило её способность к обобщению на ещё более длинных последовательностях. Meta демонстрирует сильные результаты на retrieval-задачах формата needle-in-a-haystack и на оценках cumulative negative log-likelihood для 10 миллионов токенов кода.

С архитектурной стороны ключевая инновация — interleaved attention layers без классических positional embeddings в части слоёв, плюс temperature scaling для attention во время inference. Этот подход Meta называет iRoPE. Название, скажем прямо, не самое поэтичное, но суть важнее: архитектура заточена под устойчивую работу на экстремально длинном контексте.

Кроме того, Scout показывает сильные результаты в image grounding — то есть умеет соотносить текстовый запрос с конкретными визуальными объектами и областями изображения. Это повышает точность visual question answering и делает модель полезнее в прикладных мультимодальных интерфейсах.

Работа с изображениями и несколькими визуальными входами

Meta обучала обе модели на широком наборе изображений и отдельных кадров из видео, чтобы расширить визуальное понимание, включая временные зависимости и связанные сцены. Благодаря этому модели умеют работать с multi-image input в сочетании с текстовыми prompts для задач visual reasoning и visual understanding.

На этапе pre-training модели обучались на объёме до 48 изображений, а в post-training Meta тестировала сценарии с восемью изображениями одновременно. Для пользовательских приложений, AI-ассистентов и корпоративных интерфейсов это открывает массу сценариев: анализ документов с иллюстрациями, сравнение нескольких изображений, визуальная проверка объектов, поддержка операторов и так далее. Список длинный. И, скорее всего, будет только расти.

Llama 4 Behemoth: teacher-модель почти на 2 трлн параметров

Отдельного внимания заслуживает Llama 4 Behemoth. Это мультимодальная MoE-модель с 288 млрд активных параметров, 16 экспертами и почти 2 трлн параметров в сумме. Meta пока не выпускает её публично, поскольку обучение ещё продолжается, но уже использует как teacher-модель для distillation.

По данным компании, Behemoth показывает state-of-the-art результаты среди non-reasoning-моделей на математических, мультиязычных и image-бенчмарках. Именно она использовалась для codistillation Llama 4 Maverick. Meta также разработала новую функцию потерь для distillation, которая динамически балансирует soft и hard targets в процессе обучения.

Иными словами, младшие модели не просто «уменьшили» — их довольно хитро обучали на сигналах от более мощной системы. Это помогает переносить часть качества teacher-модели в более дешёвые и практичные варианты. Для индустрии это важный паттерн: большие модели учат маленькие, а маленькие потом идут в продакшен. Красиво? Да. Экономично? Тоже да.

Post-training Behemoth оказался отдельным испытанием. Meta сообщает, что пришлось отбросить 95% SFT-данных, чтобы добиться нужной концентрации качества. Затем использовался lightweight SFT и крупномасштабный RL с акцентом на сложные prompts, динамическую фильтрацию примеров с нулевым advantage и смешивание задач в training batches. Для модели такого масштаба компания также переработала RL-инфраструктуру и получила примерно 10-кратный рост эффективности обучения по сравнению с предыдущими поколениями.

Безопасность, red teaming и снижение рисков

Meta подчёркивает, что разрабатывала Llama 4 с учётом мер безопасности на всех этапах — от фильтрации данных в pre-training до системных защит на уровне применения модели. Это особенно важно для компаний, которые строят production-системы, AI-агентов и автоматизацию в регулируемых средах. Там вопрос «насколько умная модель?» быстро сменяется вопросом «а насколько она управляемая и безопасная?»

Если смотреть на это с прикладной стороны, то зрелое внедрение почти всегда требует не только модели, но и отдельного слоя контроля: политики доступа, фильтрации, аудита, мониторинга и соответствия требованиям. В этом контексте полезно учитывать практики безопасности AI-агентов и AI compliance, особенно если речь идёт о корпоративных данных, персональной информации или автоматизированных решениях с высоким уровнем ответственности.

Меры на этапе pre-training и post-training

На этапе pre-training Meta использует фильтрацию данных и другие защитные меры, чтобы снизить риск попадания опасного или нежелательного контента в обучающую смесь. На этапе post-training применяются дополнительные техники, направленные на соответствие политике безопасности и повышение полезности модели для разработчиков и конечных пользователей.

Инструменты системного уровня

Meta также развивает и открывает защитные инструменты, которые можно использовать вместе с Llama:

Llama Guard — модель для проверки безопасности входов и выходов на основе таксономии угроз, разработанной совместно с MLCommons.
Prompt Guard — классификатор, обнаруживающий jailbreak-атаки и prompt injection.
CyberSecEval — набор оценок, помогающий анализировать и снижать риски кибербезопасности в generative AI-системах.

Meta отмечает, что такие инструменты особенно полезны, когда их можно адаптировать под конкретное приложение. И это, пожалуй, ключевая мысль: безопасность ИИ не бывает универсальной коробкой «включил и забыл». Всё зависит от контекста использования. Увы, волшебной кнопки тут нет.

Оценки и red teaming

Компания проводит систематическое тестирование моделей в контролируемых сценариях, а также stress-тест с помощью adversarial dynamic probing. Один из новых инструментов — GOAT (Generative Offensive Agent Testing), который моделирует многоходовые действия adversarial-акторов и помогает быстрее находить уязвимости. За счёт автоматизации часть типовых проверок снимается с human red team, и эксперты могут сосредоточиться на новых и более сложных направлениях атак.

Работа с bias и спорными темами

Meta отдельно признаёт, что современные LLM исторически сталкивались с проблемой bias, в том числе в политических и социальных вопросах. Компания заявляет, что стремится сделать Llama более нейтральной, более отзывчивой и менее склонной к неравномерным отказам в ответах.

По данным Meta, Llama 4 реже отказывается отвечать на спорные политические и социальные темы, чем Llama 3.3: доля отказов снизилась примерно с 7% до менее 2%. Также уменьшилась доля неравномерных отказов, а частота ответов с выраженным политическим уклоном стала сопоставима с Grok и примерно вдвое ниже, чем у Llama 3.3 на спорном наборе тем.

Это, конечно, не означает, что проблема решена окончательно. Вряд ли кто-то в индустрии вообще может честно сказать, что решил её до конца. Но движение в сторону более сбалансированного поведения модели — важный сигнал.

Почему это важно для AI-агентов и enterprise-внедрений

Llama 4 интересна не только как релиз Meta. Она важна как индикатор того, куда движется весь рынок: к мультимодальным моделям, длинной памяти, более дешёвому inference, маршрутизации вычислений через MoE и более зрелым подходам к безопасности.

Для enterprise-среды это означает следующее:

появляется больше возможностей для построения мультимодальных AI-агентов, которые работают с текстом, изображениями и длинным контекстом;
становится реалистичнее внедрение агентных систем в документы, поддержку, аналитику, разработку и внутренние knowledge workflows;
растёт значение архитектуры, памяти, оркестрации и контроля — сама модель уже не единственный центр системы;
безопасность, соответствие требованиям и управляемость становятся обязательной частью внедрения, а не «добавим потом».

И вот тут начинается самое интересное: сильная модель — это только половина дела. Вторая половина — как встроить её в процессы, данные, политики и реальные бизнес-ограничения. Иногда именно эта половина и оказывается сложнее. Даже чаще, чем хотелось бы.

Итог

Llama 4 Scout и Llama 4 Maverick задают новый ориентир для open-weight мультимодальных моделей. Scout впечатляет экстремально длинным контекстом и компактностью, Maverick — балансом качества, цены и мультимодальных возможностей, а Behemoth показывает, до какого масштаба Meta готова доводить teacher-модели ради следующего поколения систем.

Если коротко: Llama 4 — это уже не просто «ещё одна LLM». Это платформа для нового класса AI-приложений, где важны мультимодальность, агентность, длинная память, безопасность и экономическая эффективность. И да, похоже, именно в эту сторону рынок теперь и побежит. Быстро.

Скачать Llama 4 Scout и Llama 4 Maverick можно на llama.com и Hugging Face. Попробовать Meta AI на базе Llama 4 можно в WhatsApp, Messenger, Instagram Direct и на сайте Meta.AI.

Семейство Llama 4: старт новой эпохи нативно мультимодального ИИ

5 апреля 2025 г. • 12 минут чтения

Ключевые выводы

Meta представила первые модели семейства Llama 4, рассчитанные на более персонализированные мультимодальные сценарии.
Llama 4 Scout — модель с 17 млрд активных параметров и 16 экспертами. Она помещается на одном GPU NVIDIA H100, поддерживает контекст до 10 миллионов токенов и, по заявлению Meta, превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по ряду общепринятых бенчмарков.
Llama 4 Maverick — модель с 17 млрд активных параметров и 128 экспертами. Она обходит GPT-4o и Gemini 2.0 Flash на ряде мультимодальных тестов, а в reasoning- и coding-задачах показывает результаты, сопоставимые с DeepSeek v3, при меньшем числе активных параметров. Экспериментальная chat-версия получила ELO 1417 в LMArena.
Обе модели усиливались через distillation от Llama 4 Behemoth — teacher-модели с 288 млрд активных параметров и почти 2 трлн параметров в сумме. По данным Meta, Behemoth превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro на ряде STEM-бенчмарков.
Llama 4 Scout и Llama 4 Maverick уже доступны на llama.com и Hugging Face. Meta AI на базе Llama 4 можно попробовать в WhatsApp, Messenger, Instagram Direct и в веб-версии.

Что именно представила Meta

Предобучение: ставка на MoE и мультимодальность

Post-training: меньше шума, больше качества

Llama 4 Maverick: основная мультимодальная модель

Llama 4 Scout: компактнее, но с гигантским контекстом

Работа с изображениями и несколькими визуальными входами

Llama 4 Behemoth: teacher-модель почти на 2 трлн параметров

Безопасность, red teaming и снижение рисков

Меры на этапе pre-training и post-training

Инструменты системного уровня

Meta также развивает и открывает защитные инструменты, которые можно использовать вместе с Llama:

Llama Guard — модель для проверки безопасности входов и выходов на основе таксономии угроз, разработанной совместно с MLCommons.
Prompt Guard — классификатор, обнаруживающий jailbreak-атаки и prompt injection.
CyberSecEval — набор оценок, помогающий анализировать и снижать риски кибербезопасности в generative AI-системах.

Оценки и red teaming

Работа с bias и спорными темами

Почему это важно для AI-агентов и enterprise-внедрений

Для enterprise-среды это означает следующее:

появляется больше возможностей для построения мультимодальных AI-агентов, которые работают с текстом, изображениями и длинным контекстом;
становится реалистичнее внедрение агентных систем в документы, поддержку, аналитику, разработку и внутренние knowledge workflows;
растёт значение архитектуры, памяти, оркестрации и контроля — сама модель уже не единственный центр системы;
безопасность, соответствие требованиям и управляемость становятся обязательной частью внедрения, а не «добавим потом».

Llama 4 от Meta: нативно мультимодальные AI-модели, MoE-архитектура и новый этап развития AI-агентов

Семейство Llama 4: старт новой эпохи нативно мультимодального ИИ

Ключевые выводы

Что именно представила Meta

Предобучение: ставка на MoE и мультимодальность

Post-training: меньше шума, больше качества

Llama 4 Maverick: основная мультимодальная модель

Llama 4 Scout: компактнее, но с гигантским контекстом

Работа с изображениями и несколькими визуальными входами

Llama 4 Behemoth: teacher-модель почти на 2 трлн параметров

Безопасность, red teaming и снижение рисков

Работа с bias и спорными темами

Почему это важно для AI-агентов и enterprise-внедрений

Итог

Llama 4 от Meta: нативно мультимодальные AI-модели, MoE-архитектура и новый этап развития AI-агентов

Семейство Llama 4: старт новой эпохи нативно мультимодального ИИ

Ключевые выводы

Что именно представила Meta

Предобучение: ставка на MoE и мультимодальность

Post-training: меньше шума, больше качества

Llama 4 Maverick: основная мультимодальная модель

Llama 4 Scout: компактнее, но с гигантским контекстом

Работа с изображениями и несколькими визуальными входами

Llama 4 Behemoth: teacher-модель почти на 2 трлн параметров

Безопасность, red teaming и снижение рисков

Работа с bias и спорными темами

Почему это важно для AI-агентов и enterprise-внедрений

Итог