Nemotron 3 Super на Nvidia DGX Spark: что показал запуск 120B-модели локально и почему это важно для AI-агентов
Nemotron 3 Super на Nvidia DGX Spark: что показал запуск 120B-модели локально и почему это важно для AI-агентов
Есть особое ощущение, когда смотришь, как в память медленно, почти упрямо, заливается модель на 87 ГБ. Полоса загрузки ползёт вперёд, и в какой-то момент до тебя доходит простая, но немного дикая мысль: сейчас рядом, буквально на столе, будет работать система на 120 миллиардов параметров. Не через API. Не где-то в чужом облаке. Здесь. На компактной машине размером примерно с толстый сэндвич.
Примерно так у меня и началось знакомство с Nemotron 3 Super от NVIDIA на DGX Spark. И, честно говоря, модель заслуживает куда большего внимания, чем получает сейчас. Не из-за красивых цифр в таблицах — хотя цифры там, да, внушительные, — а из-за того, как именно она собрана. В её устройстве хорошо видно, куда вообще движется современный inference: в сторону длинного контекста, экономии памяти, гибридных архитектур и более практичного запуска больших моделей на локальном железе.
Если говорить по-простому, Nemotron 3 Super — это не просто ещё одна LLM. Это довольно хитро скроенная система, где Mamba-2, Transformer Attention и Latent MoE работают вместе, а не мешают друг другу. И вот это уже интересно. Особенно тем, кто строит корпоративные AI-решения, AI-агентов и автоматизацию, где важны не только «умные ответы», но и стоимость inference, длина контекста, устойчивость и предсказуемость поведения.
С цифрами всё красиво. Но они слегка уводят в сторону
NVIDIA, как и все крупные вендоры, любит заголовочные числа: 120 млрд параметров, контекст до 1 млн токенов, ускорение throughput до 5x. Формально всё верно. Но если смотреть глазами инженера, а не маркетолога, ключевая цифра тут другая.
12,7 миллиарда параметров на токен.
Вот где суть. Из общих 120,6 млрд параметров на каждом конкретном шаге реально активируется только часть — примерно одна десятая. Остальные, если совсем по-человечески, сидят в резерве и ждут, когда маршрутизация приведёт к ним подходящий токен. Именно это делает модель одновременно большой и всё ещё пригодной для запуска на desktop-class железе.
Именно поэтому она не разваливается по памяти. Именно поэтому она не ощущается как неподъёмный монстр. И именно поэтому разговор про «120B» без уточнения про активные параметры — ну, скажем мягко, неполный.
Есть и второй важный слой понимания: у модели 88 слоёв, и большая их часть — это Mamba-2, а не классический Transformer. Attention-слои тоже есть, но их заметно меньше, и расставлены они не случайно, а в стратегических точках стека. То есть перед нами не «ещё один трансформер с MoE», а гибридная архитектура, где каждый компонент закрывает свою слабость и усиливает чужую сильную сторону. Для тех, кто проектирует архитектуру AI-агентов, это, кстати, очень знакомая логика: не один универсальный блок на всё, а связка специализированных механизмов.
По сути, это три модели в одном корпусе
Nemotron 3 Super проще понимать не как одну архитектуру, а как три, аккуратно сшитые вместе. Немного Frankenstein, но в хорошем смысле. И да — работает это surprisingly органично.
Первый слой — Mamba-2. Это рабочая лошадка, которая тянет длинные последовательности без истерики по памяти.
Второй — Transformer Attention. Он нужен там, где требуется точная дальняя привязка: связать кусок информации из одной части контекста с чем-то, что всплыло сильно позже.
Третий — Latent MoE. Именно он позволяет держать много экспертов и при этом не платить за это чудовищной ценой на inference.
Когда смотришь на эту конструкцию целиком, становится понятно, почему модель ведёт себя именно так: она не пытается одной техникой решить все задачи сразу. Она распределяет роли. И это, наверное, самое взрослое инженерное решение во всей истории.
Mamba-2: не гламурно, зато тащит
Большинство из 88 слоёв — это блоки Mamba-2. Если не уходить в академические дебри, Mamba — это state-space architecture, которая поддерживает компактное внутреннее состояние фиксированного размера и обновляет его по мере поступления новых токенов.
Ключевой плюс здесь в вычислительной сложности: линейный рост по длине последовательности. Удвоили контекст — примерно удвоили вычисления. Для attention-механизмов в классическом виде всё обычно неприятнее: там рост ближе к квадратичному, и длинный контекст быстро становится дорогим удовольствием.
Вот почему заявка на окно контекста в 1 миллион токенов здесь не выглядит чистым PR. Основная часть модели действительно может работать с длинной последовательностью без взрывного роста затрат. Память у Mamba не раздувается вместе с каждым новым токеном — внутреннее состояние остаётся фиксированным по размеру. Это не магия, конечно. Но выглядит почти как она.
Для систем с длинной историей взаимодействий — например, для агентных сценариев, где важны цепочки действий, журналы событий, промежуточные выводы и внешние документы, — такой подход особенно полезен. Не случайно похожие идеи всё чаще обсуждаются рядом с темами агентной памяти и RAG.
Attention никуда не делся. И слава богу
При всей силе Mamba у неё есть известное ограничение: точное ассоциативное извлечение на очень длинных дистанциях даётся ей хуже, чем attention. Если нужно жёстко связать конкретную деталь из позиции 1 000 с чем-то на позиции 500 000, фиксированное состояние начинает работать как компрессор: что-то сохраняется, что-то сглаживается, что-то теряется.
Поэтому NVIDIA не стала играть в архитектурный фанатизм. В стек встроены классические attention-слои с Grouped Query Attention: 32 query heads, 2 KV heads, размерность head — 128. Эти слои расставлены по глубине модели так, чтобы подхватывать именно те случаи, где нужна высокая точность дальних связей.
И это, если честно, очень здравая инженерия. Не «мы заменили Transformer полностью», а «мы оставили его там, где он реально нужен». В результате основная масса вычислений остаётся линейной, а квадратичный attention включается точечно — как дорогой, но очень точный инструмент. Скальпель, а не молоток.
Почему KV cache здесь уже не выглядит как тихий убийца памяти
Вот где становится по-настоящему практично. На железе вроде DGX Spark вопрос не только в том, влезут ли веса модели, но и в том, сколько памяти сожрёт KV cache на длинном контексте. И вот тут гибридная схема Nemotron 3 Super даёт очень ощутимый выигрыш.
В обычном Transformer KV cache растёт вместе с длиной последовательности. Каждый attention-слой хранит key/value-представления для уже просмотренных токенов. На миллион токенов это превращается в очень заметный объём памяти. Для крупных моделей с полноценным набором attention-слоёв счёт идёт на десятки гигабайт — и это без всякой драмы, просто математика.
У Nemotron 3 Super attention-слоёв меньше, размерность head — 128, KV heads — 2, а Mamba-слои вообще не раздувают KV cache, потому что работают через фиксированное состояние. В итоге вклад в cache дают только attention-слои, и суммарный объём получается примерно в 3 раза меньше, чем у сопоставимых моделей вроде Qwen при той же длине контекста.
На практике это означает простую вещь: в 128 ГБ unified memory у DGX Spark можно разместить модель примерно на 87 ГБ, добавить KV cache даже для очень длинных контекстов — и всё ещё не упереться лбом в потолок памяти. Для локального inference это не мелочь. Это разница между «теоретически возможно» и «реально работает».
Короче говоря, KV cache здесь перестаёт быть главным источником тревоги. Не полностью исчезает, нет. Но уже не диктует правила игры.
Latent MoE: больше экспертов без штрафа, который обычно всё портит
Самая изящная часть конструкции, на мой взгляд, — это Latent MoE. В стандартной Mixture of Experts каждый токен отправляется к одному или нескольким экспертам из большого пула. Идея отличная: разные эксперты специализируются на разных типах паттернов, а роутер решает, кого звать на конкретный токен.
Но у обычной MoE есть неприятная цена. Routing идёт в полной hidden dimension, эксперты тоже работают в полной размерности, и как только вы хотите больше экспертов или больше активных экспертов на токен, inference начинает тормозить. Красота заканчивается, начинается счёт за вычисления.
Latent MoE обходит это через сжатие. Перед маршрутизацией представления токенов проецируются в более компактное latent-пространство. Роутер работает уже там — дешевле, быстрее, легче по ресурсам. Эксперты тоже оперируют сжатыми представлениями.
И вот тут NVIDIA делает умный ход: сэкономленные вычисления не просто «кладутся в карман», а реинвестируются в качество. За счёт этой экономии можно увеличить и общее число экспертов, и число экспертов, активируемых на один токен. Итог — примерно в 4 раза больше экспертной мощности на токен при близкой стоимости inference по сравнению с более традиционной MoE-схемой.
Если совсем без формул: вместо одного узкого специалиста, который быстро выносит вердикт, токен получает маленький консилиум из нескольких экспертов. И это заметно улучшает качество без драматического роста latency. Неплохая сделка, согласитесь.
Multi-Token Prediction: встроенный speculative decoding, а не костыль сбоку
Обычная языковая модель живёт в режиме «по одному токену за раз». Сгенерировали следующий токен, вернули его на вход, сгенерировали ещё один — и так до победного. Именно эта последовательность и делает генерацию медленной, особенно когда ответ длинный.
Nemotron 3 Super пытается обойти это ограничение через multi-token prediction. У модели есть prediction heads с общими весами, которые из одного внутреннего представления предсказывают не только следующий токен, но и несколько шагов вперёд.
Во время обучения это заставляет модель лучше понимать дальние зависимости. Чтобы уверенно смотреть на несколько токенов вперёд, нужно схватывать структуру контекста шире, чем при обычном next-token prediction. Во время inference это превращается во встроенный speculative decoding: модель предлагает пачку токенов, затем проверяет, какие из них можно принять.
Особенно хорошо это работает на структурированном выводе — код, шаблонные ответы, tool calls, формализованные последовательности. Там ближайшие токены часто предсказуемы, и выигрыш по wall-clock time может быть очень заметным. NVIDIA говорит об ускорении до 3x в подходящих сценариях. Для обычного чата это, вероятно, будет скромнее. Но для генерации кода и агентных пайплайнов — уже серьёзно.
И что приятно, не нужна отдельная draft model. Всё встроено в саму архитектуру. Без лишних подпорок. Ну, почти без магии — хотя выглядит эффектно.
Почему это важно не только для любителей железа
На первый взгляд история про Nemotron 3 Super и DGX Spark кажется нишевой: мол, очередной разбор большой модели для тех, кто любит спецификации, графики и слова вроде throughput. Но на самом деле вывод шире.
Такие архитектуры особенно важны для enterprise-сценариев: локальный inference, длинный контекст, контролируемая стоимость, предсказуемое поведение на сложных пайплайнах, интеграция с внутренними данными и инструментами. А это уже территория не «игрушечных чат-ботов», а реальных систем — от внутренних copilot-решений до сложных мультишаговых workflow.
Если компания строит мультиагентные системы, автоматизирует процессы, внедряет RAG, проектирует безопасный доступ к корпоративным данным или думает о контроле длинной истории взаимодействий, то подобные модели становятся не просто интересными, а практически полезными. Особенно если параллельно учитывать безопасность AI-агентов, требования к изоляции данных и управляемость inference в корпоративной среде.
И да, есть ещё один взрослый вопрос, который нельзя игнорировать: соответствие требованиям, аудит, контроль поведения модели, работа с чувствительными данными. Чем ближе inference к локальной или частной инфраструктуре, тем проще выстраивать AI governance и процессы AI compliance. Не автоматически, конечно. Но заметно проще.
Что в сухом остатке
Если отбросить шум вокруг «120B», Nemotron 3 Super интересна не размером как таковым, а комбинацией решений. Mamba-2 даёт длинный контекст без безумного роста затрат. Attention остаётся там, где нужна точность. Latent MoE увеличивает специализацию без тяжёлого штрафа по inference. Multi-token prediction ускоряет генерацию в сценариях, где это действительно важно.
И всё это вместе делает модель удивительно практичной для локального запуска на DGX Spark. Не дешёвой игрушкой, нет. Но уже и не чем-то из разряда «такое бывает только в дата-центре».
Наверное, главный урок здесь такой: будущее больших моделей — не обязательно в бесконечном наращивании параметров. Скорее в том, как умно распределять вычисления, память и архитектурные роли. Nemotron 3 Super как раз об этом. Не идеальная, не волшебная — но очень показательная.
И, честно, это, пожалуй, самое интересное во всей истории. Не то, что модель огромная. А то, что она огромная без ощущения бессмысленной тяжести. Редкая штука.
