Новый фреймворк позволяет AI-агентам переписывать собственные навыки без дообучения модели

10:18 am, PT, April 8, 2026

Источник изображения: VentureBeat совместно с Nano Banana

Вот где обычно всё и спотыкается: компания запускает автономного агента, он бодро проходит демо, а потом среда меняется — и система начинает буксовать. Переобучать базовую LLM каждый раз дорого, медленно и, если по-честному, для production-сценариев часто просто непрактично.

Именно в эту точку бьёт Memento-Skills — новый исследовательский фреймворк, созданный учёными из нескольких университетов. Его идея проста, но цепкая: дать агенту возможность не просто выполнять инструкции, а постепенно переписывать и наращивать собственные навыки без изменения весов базовой модели. По словам соавтора работы Jun Wang, система добавляет к существующим решениям вроде OpenClaw и Claude Code то, чего им часто не хватает, — полноценное continual learning.

По сути, Memento-Skills выступает как внешняя, но живая память агента. Не склад старых логов, не архив ради архива, а рабочая библиотека навыков, которую можно дополнять, чинить, расширять и — да, местами переписывать на ходу. Для компаний, которым нужна разработка AI-агентов и автоматизация без бесконечного цикла ручных доработок, это звучит особенно практично.

Для enterprise-команд смысл здесь очень приземлённый. Альтернатива обычно сводится к двум не самым приятным вариантам: либо дообучать модель, либо вручную проектировать новые навыки под каждый класс задач. И то и другое стоит денег, времени и нервов. Memento-Skills пытается срезать этот угол — аккуратно, но заметно.

Почему саморазвивающиеся AI-агенты вообще важны

После развёртывания большинство языковых моделей остаются, грубо говоря, «замороженными». Их параметры не меняются, а значит, агент ограничен тем, что модель уже знает с этапа обучения, плюс тем, что помещается в текущее окно контекста. Всё. Дальше — потолок.

Если же у агента появляется внешняя память, которую он умеет не просто читать, но и осмысленно обновлять, картина меняется. Он может адаптироваться без тяжёлого retraining. Но тут есть подвох: многие современные агентные системы всё ещё держатся на вручную собранных навыках. Автоматизация вроде бы есть, но нередко она сводится к генерации текстовых инструкций — то есть, по сути, к более хитрой настройке промптов. Не то чтобы это бесполезно. Но и прорывом не назовёшь.

Есть и другая проблема. Некоторые подходы сохраняют траектории выполнения отдельных задач, однако такие записи плохо переносятся на новые сценарии. А когда агент пытается вытащить релевантное знание для следующей задачи, он часто опирается на обычный поиск по семантическому сходству — dense embeddings, BM25 и прочие знакомые инструменты. Звучит разумно, но на практике семантическая близость и реальная полезность — не одно и то же. Совсем не одно.

Типичный пример: стандартные RAG и агентная память могут вернуть навык для сброса пароля при обработке запроса на возврат средств просто потому, что в обоих документах мелькает похожий корпоративный язык. Формально похоже. Фактически — мимо кассы.

Как отмечает Wang, большинство систем retrieval-augmented generation опираются именно на сходство. Но если навык — это не абстрактный текст, а исполняемый артефакт: markdown, код, скрипт, — одного совпадения по смыслу уже маловато. Нужен выбор по поведенческой полезности. Иначе агент будет уверенно доставать не то. Красиво, быстро, не туда.

Как Memento-Skills хранит, выбирает и переписывает навыки

Исследователи описывают Memento-Skills как универсальную агентную систему на базе LLM с поддержкой continual learning — своего рода «агента, который проектирует агентов». Формулировка громкая, но в данном случае не пустая. Вместо пассивного накопления истории система собирает библиотеку переиспользуемых навыков, которая становится постоянной внешней памятью.

Навыки хранятся в виде структурированных markdown-файлов. Каждый такой артефакт включает три слоя. Первый — декларативное описание: что это за навык, когда он нужен, как его применять. Второй — специализированные инструкции и промпты, которые направляют рассуждение модели. Третий — исполняемый код и вспомогательные скрипты, через которые агент реально решает задачу.

Ключевой механизм здесь называется Read-Write Reflective Learning. Обновление памяти в нём трактуется не как складирование следов выполнения, а как активная итерация улучшения политики. Когда приходит новая задача, агент обращается к skill router и пытается выбрать не самый «похожий» навык, а тот, который с наибольшей вероятностью даст полезное поведение на выходе. Это уже ближе к тому, что нужно бизнесу при проектировании архитектуры AI-агентов.

Дальше начинается самое интересное. После выполнения навыка агент получает обратную связь, и система замыкает цикл обучения. Если всё прошло плохо, оркестратор анализирует trace и переписывает артефакт навыка: может поправить код, изменить промпт, скорректировать инструкции или, если старый шаблон совсем не годится, создать новый навык с нуля. Не косметика — именно рабочая переделка.

Skill router тоже не остаётся статичным. Его дообучают через одношаговый offline reinforcement learning, используя обратную связь от выполнения задач, а не только текстовую близость. Wang формулирует это довольно точно: ценность навыка определяется не тем, насколько он похож на запрос, а тем, как он влияет на весь agentic workflow и конечное исполнение. В этом смысле reinforcement learning действительно выглядит более уместной основой.

Memento-Skills framework — Фреймворк Memento-Skills (источник: arXiv)

Чтобы не допустить регрессий в production, авторы добавили защитный контур: автоматические изменения навыков проходят через unit-test gate. Система генерирует синтетический тестовый кейс, прогоняет обновлённый навык и только после проверки сохраняет его в общую библиотеку. Не серебряная пуля, конечно, но уже не дикий запад.

В результате «замороженная» языковая модель получает нечто вроде устойчивой мышечной памяти. Она сама не переучивается, зато её исполняемые инструменты становятся лучше от итерации к итерации. И это, честно говоря, куда интереснее очередного разговора о том, что «нужно просто больше контекста».

Что показали тесты на GAIA и Humanity's Last Exam

Проверяли систему на двух серьёзных бенчмарках. Первый — General AI Assistants (GAIA), где нужны многошаговое рассуждение, работа с инструментами, веб-браузинг и мультимодальность. Второй — Humanity's Last Exam (HLE), экспертный набор задач по восьми академическим дисциплинам, включая математику и биологию. Базовой моделью во всех экспериментах выступала Gemini-3.1-Flash.

Для сравнения исследователи использовали baseline-подход Read-Write. Он умеет извлекать навыки и собирать обратную связь, но не поддерживает самоэволюцию. Отдельно тестировали и собственный skill router против стандартных методов retrieval — BM25 и Qwen3 embeddings.

Memento-skills performance — Результаты на бенчмарке GAIA (Memento-Skills против Read-Write) (источник: arXiv)

Итоги получились заметными. На GAIA Memento-Skills поднял точность на тестовом наборе на 13,7 процентного пункта — до 66,0% против 52,3% у статического baseline. На HLE разрыв ещё резче: 38,7% против 17,9%. То есть система более чем удвоила результат базового подхода.

Не менее важен и другой показатель: качество выбора навыков. Специализированный router в Memento-Skills помогает избежать классической ошибки retrieval, когда агент хватает первый семантически похожий, но фактически бесполезный артефакт. В экспериментах end-to-end успешность выполнения задач доходила до 80%, тогда как у стандартного BM25-поиска она составляла около 50%.

Любопытно и то, как росла библиотека навыков. Оба эксперимента стартовали всего с пяти атомарных seed-навыков — например, базового веб-поиска и операций в терминале. Затем система расширяла набор сама. На GAIA библиотека выросла до 41 навыка, а на HLE — до 235. Не взрывной хаос, а довольно структурированное разрастание. Хотя, ну да, без хорошего контроля такая штука легко может превратиться в чулан с проводами.

Memento-skills skill development — Memento-Skills стартует с базового набора навыков (звёзды) и наращивает новые (круги) по мере решения задач (источник: arXiv)

Где это реально пригодится enterprise-командам

Код Memento-Skills опубликован на GitHub, так что фреймворк уже можно изучать и пробовать. Но главный вопрос для enterprise — не в том, «работает ли это на бенчмарке», а в том, где именно такая механика даст бизнес-эффект.

По словам Wang, всё упирается в переносимость навыков между задачами. Если задачи изолированы, слабо связаны и почти не повторяют друг друга, агенту трудно использовать прошлый опыт — он будет снова и снова учиться с нуля через взаимодействие. В такой среде выигрыш ограничен. А вот там, где есть повторяющиеся паттерны, устойчивые workflow и общая структура, накопленные навыки начинают работать как рычаг. Один раз научился — потом переиспользуешь.

Именно поэтому workflow-сценарии выглядят наиболее естественной средой для таких систем. Там навыки можно комбинировать, оценивать, улучшать и встраивать в управляемый контур. Для компаний, которые строят мультиагентные системы, это особенно важно: чем длиннее и сложнее цепочка действий, тем выше ценность устойчивой памяти, маршрутизации навыков и контролируемой координации.

При этом авторы не советуют натягивать подход на всё подряд. Физические агенты пока остаются малоисследованной областью. Задачи с длинным горизонтом планирования тоже могут потребовать более сложных конструкций — вплоть до multi-agent LLM systems, где нужны координация, планирование и устойчивое исполнение на длинных последовательностях решений. И да, это уже совсем другой уровень инженерии. Без шуток.

Есть и ещё один слой — governance, безопасность и соответствие требованиям. Когда индустрия движется к агентам, которые способны переписывать собственный production-код, вопросы контроля становятся не факультативом, а обязательной частью архитектуры. Базовые unit-тесты полезны, но для enterprise-среды этого, скорее всего, мало. Нужны политики валидации, аудит изменений, контроль доступа, sandboxing и полноценная безопасность AI-агентов, а также AI compliance и соответствие требованиям.

Wang подчёркивает ту же мысль: надёжное самоулучшение требует хорошо спроектированной judge-системы или контура оценки, который способен последовательно измерять качество и направлять изменения. Иначе агенту слишком легко дать свободу там, где нужна дисциплина. Самомодификация без рамок — идея эффектная, но в enterprise она заканчивается, как правило, не аплодисментами.

Если смотреть шире, Memento-Skills интересен не только как исследовательский результат, но и как намёк на следующий этап рынка. Не просто AI-агенты, которые вызывают инструменты, а системы, способные накапливать рабочие навыки, переписывать их под новые условия и делать это без постоянного вмешательства в базовую модель. Возможно, именно здесь и начинается по-настоящему зрелая автоматизация. Не мгновенно, не без оговорок, но уже вполне осязаемо.

Еще

Business robot holds laptop up with $100 displayed on it — Источник: VentureBeat, создано с помощью OpenAI GPT-Image-1.5

OpenAI фактически пытается привлечь к себе вытесненное сообщество OpenClaw, чтобы вернуть рынок профессиональных разработчиков.

Carl Franzen4:07 pm, PT, April 9, 2026

AI Impact series event — Источник: Brian Malloy Photo

175-летняя страховая компания и крупный академический медицинский центр поделились governance-подходом, который положил конец хаосу пилотных проектов и вывел AI в production.

Taryn Plumb11:06 am, PT, April 7, 2026

Lobsters at work in the office — Источник: VentureBeat, создано с помощью Google Gemini 3.1 Pro Image

В видении Kilo у каждого сотрудника со временем будет две идентичности — стандартная человеческая учетная запись и соответствующая bot-учетная запись, например scott.bot@kiloco.ai.

Carl Franzen4:47 pm, PT, April 1, 2026

AI and HI — CleoP, создано с помощью Midjourney

После вывода AI для 3 миллионов клиентов Intuit обнаружила, что ключ был не в более качественных чат-ботах, а в понимании того, когда нужно передать задачу человеку-эксперту.

Taryn Plumb2:24 pm, PT, April 1, 2026

agentic code reasoning — Источник изображения: VentureBeat совместно с Nano Banana

Эту технику можно использовать сразу «из коробки», без обучения модели или специальной упаковки. Она не требует выполнения кода, а значит, в LLM-среду не нужно добавлять дополнительные инструменты.

Ben Dickson7:13 pm, PT, March 31, 2026

nuneybits Vector art of a laptop displaying an unmistakable Sla e2df2056-1841-4245-a4ea-4b79444c7d56 — Источник: VentureBeat, создано с помощью Midjourney

Это объявление, приуроченное к keynote-мероприятию, на котором во вторник утром выступит CEO Salesforce Marc Benioff, прозвучало менее чем через три месяца после того, как Slackbot впервые стал общедоступным 13 января для подписчиков Business+ и Enterprise+. За этот короткий период, по словам Slack, функция идет к тому, чтобы стать самым быстро внедряемым продуктом за 27-летнюю историю Salesforce: некоторые сотрудники в клиентских организациях сообщают, что экономят до 90 минут в день. Внутри самой Salesforce команды заявляют об экономии до 20 часов в неделю, что эквивалентно более чем $6,4 млн предполагаемой ценности в виде роста производительности.

Michael Nuñez11:00 am, PT, March 31, 2026

crimedy7 illustration of a robot transcribing a meeting --ar cca420ed-5206-436c-8e98-8eb21595bd8e 1 — Источник: VentureBeat, создано с помощью MidJourney

Cohere выпустила open-weight модель для транскрибации, которая работает на локальной инфраструктуре — без необходимости во внешнем API.

Emilia David11:00 am, PT, March 30, 2026

На прошлой неделе один из product-менеджеров Zencoder создал и выпустил функцию. Не описал её в спецификации. Не завёл на неё тикет. А именно создал, протестировал и выкатил в production. За один день.

Andrew Filev, Zencoder9:00 am, PT, March 29, 2026

Inside-out — VentureBeat, создано с помощью Midjourney

Многие пробовали AI-инструменты и уходили разочарованными. Это понятно — многие демо обещают магию, но на практике результаты могут казаться неубедительными.

Andrew Filev, Zencoder9:00 am, PT, March 28, 2026

nuneybits Vector art of burnt orange voice waves rising from a b4e149ce-8692-4f29-8c57-9d1ac9c21a08 — Источник: VentureBeat, создано с помощью Midjourney

Рынок enterprise voice AI сейчас находится в фазе активного захвата. Только на этой неделе ElevenLabs и IBM объявили о сотрудничестве, чтобы добавить premium voice-возможности в платформу IBM watsonx Orchestrate. Google Cloud расширяет линейку голосов Chirp 3 HD. OpenAI продолжает развивать собственный speech synthesis. И рынок, лежащий в основе всей этой активности, огромен — в 2026 году мировой рынок voice AI превысил $22 млрд, а сегмент voice AI agents, по отраслевым оценкам, должен достичь $47,5 млрд к 2034 году.

Michael Nuñez4:30 am, PT, March 26, 2026

Партнёрский материал

При поддержке OutSystems

VB Staff9:00 pm, PT, March 25, 2026

LLM context organization — Источник изображения: VentureBeat совместно с ChatGPT

Новая исследовательская техника xMemory почти вдвое сокращает расход токенов для AI-агентов с несколькими сессиями, заменяя плоский RAG четырёхуровневой семантической иерархией.

Ben Dickson5:00 pm, PT, March 24, 2026

Ben Dickson