Вот где обычно всё и спотыкается: компания запускает автономного агента, он бодро проходит демо, а потом среда меняется — и система начинает буксовать. Переобучать базовую LLM каждый раз дорого, медленно и, если по-честному, для production-сценариев часто просто непрактично.

Именно в эту точку бьёт Memento-Skills — новый исследовательский фреймворк, созданный учёными из нескольких университетов. Его идея проста, но цепкая: дать агенту возможность не просто выполнять инструкции, а постепенно переписывать и наращивать собственные навыки без изменения весов базовой модели. По словам соавтора работы Jun Wang, система добавляет к существующим решениям вроде OpenClaw и Claude Code то, чего им часто не хватает, — полноценное continual learning.

По сути, Memento-Skills выступает как внешняя, но живая память агента. Не склад старых логов, не архив ради архива, а рабочая библиотека навыков, которую можно дополнять, чинить, расширять и — да, местами переписывать на ходу. Для компаний, которым нужна разработка AI-агентов и автоматизация без бесконечного цикла ручных доработок, это звучит особенно практично.

Для enterprise-команд смысл здесь очень приземлённый. Альтернатива обычно сводится к двум не самым приятным вариантам: либо дообучать модель, либо вручную проектировать новые навыки под каждый класс задач. И то и другое стоит денег, времени и нервов. Memento-Skills пытается срезать этот угол — аккуратно, но заметно.

Почему саморазвивающиеся AI-агенты вообще важны

После развёртывания большинство языковых моделей остаются, грубо говоря, «замороженными». Их параметры не меняются, а значит, агент ограничен тем, что модель уже знает с этапа обучения, плюс тем, что помещается в текущее окно контекста. Всё. Дальше — потолок.

Если же у агента появляется внешняя память, которую он умеет не просто читать, но и осмысленно обновлять, картина меняется. Он может адаптироваться без тяжёлого retraining. Но тут есть подвох: многие современные агентные системы всё ещё держатся на вручную собранных навыках. Автоматизация вроде бы есть, но нередко она сводится к генерации текстовых инструкций — то есть, по сути, к более хитрой настройке промптов. Не то чтобы это бесполезно. Но и прорывом не назовёшь.

Есть и другая проблема. Некоторые подходы сохраняют траектории выполнения отдельных задач, однако такие записи плохо переносятся на новые сценарии. А когда агент пытается вытащить релевантное знание для следующей задачи, он часто опирается на обычный поиск по семантическому сходству — dense embeddings, BM25 и прочие знакомые инструменты. Звучит разумно, но на практике семантическая близость и реальная полезность — не одно и то же. Совсем не одно.

Типичный пример: стандартные RAG и агентная память могут вернуть навык для сброса пароля при обработке запроса на возврат средств просто потому, что в обоих документах мелькает похожий корпоративный язык. Формально похоже. Фактически — мимо кассы.

Как отмечает Wang, большинство систем retrieval-augmented generation опираются именно на сходство. Но если навык — это не абстрактный текст, а исполняемый артефакт: markdown, код, скрипт, — одного совпадения по смыслу уже маловато. Нужен выбор по поведенческой полезности. Иначе агент будет уверенно доставать не то. Красиво, быстро, не туда.

Как Memento-Skills хранит, выбирает и переписывает навыки

Исследователи описывают Memento-Skills как универсальную агентную систему на базе LLM с поддержкой continual learning — своего рода «агента, который проектирует агентов». Формулировка громкая, но в данном случае не пустая. Вместо пассивного накопления истории система собирает библиотеку переиспользуемых навыков, которая становится постоянной внешней памятью.

Read-Write Reflective Learning

Read-Write Reflective Learning (источник: arXiv)

Навыки хранятся в виде структурированных markdown-файлов. Каждый такой артефакт включает три слоя. Первый — декларативное описание: что это за навык, когда он нужен, как его применять. Второй — специализированные инструкции и промпты, которые направляют рассуждение модели. Третий — исполняемый код и вспомогательные скрипты, через которые агент реально решает задачу.

Ключевой механизм здесь называется Read-Write Reflective Learning. Обновление памяти в нём трактуется не как складирование следов выполнения, а как активная итерация улучшения политики. Когда приходит новая задача, агент обращается к skill router и пытается выбрать не самый «похожий» навык, а тот, который с наибольшей вероятностью даст полезное поведение на выходе. Это уже ближе к тому, что нужно бизнесу при проектировании архитектуры AI-агентов.

Дальше начинается самое интересное. После выполнения навыка агент получает обратную связь, и система замыкает цикл обучения. Если всё прошло плохо, оркестратор анализирует trace и переписывает артефакт навыка: может поправить код, изменить промпт, скорректировать инструкции или, если старый шаблон совсем не годится, создать новый навык с нуля. Не косметика — именно рабочая переделка.

Skill router тоже не остаётся статичным. Его дообучают через одношаговый offline reinforcement learning, используя обратную связь от выполнения задач, а не только текстовую близость. Wang формулирует это довольно точно: ценность навыка определяется не тем, насколько он похож на запрос, а тем, как он влияет на весь agentic workflow и конечное исполнение. В этом смысле reinforcement learning действительно выглядит более уместной основой.

Memento-Skills framework

Фреймворк Memento-Skills (источник: arXiv)

Чтобы не допустить регрессий в production, авторы добавили защитный контур: автоматические изменения навыков проходят через unit-test gate. Система генерирует синтетический тестовый кейс, прогоняет обновлённый навык и только после проверки сохраняет его в общую библиотеку. Не серебряная пуля, конечно, но уже не дикий запад.

В результате «замороженная» языковая модель получает нечто вроде устойчивой мышечной памяти. Она сама не переучивается, зато её исполняемые инструменты становятся лучше от итерации к итерации. И это, честно говоря, куда интереснее очередного разговора о том, что «нужно просто больше контекста».

Что показали тесты на GAIA и Humanity's Last Exam

Проверяли систему на двух серьёзных бенчмарках. Первый — General AI Assistants (GAIA), где нужны многошаговое рассуждение, работа с инструментами, веб-браузинг и мультимодальность. Второй — Humanity's Last Exam (HLE), экспертный набор задач по восьми академическим дисциплинам, включая математику и биологию. Базовой моделью во всех экспериментах выступала Gemini-3.1-Flash.

Для сравнения исследователи использовали baseline-подход Read-Write. Он умеет извлекать навыки и собирать обратную связь, но не поддерживает самоэволюцию. Отдельно тестировали и собственный skill router против стандартных методов retrieval — BM25 и Qwen3 embeddings.

Memento-skills performance

Результаты на бенчмарке GAIA (Memento-Skills против Read-Write) (источник: arXiv)

Итоги получились заметными. На GAIA Memento-Skills поднял точность на тестовом наборе на 13,7 процентного пункта — до 66,0% против 52,3% у статического baseline. На HLE разрыв ещё резче: 38,7% против 17,9%. То есть система более чем удвоила результат базового подхода.

Не менее важен и другой показатель: качество выбора навыков. Специализированный router в Memento-Skills помогает избежать классической ошибки retrieval, когда агент хватает первый семантически похожий, но фактически бесполезный артефакт. В экспериментах end-to-end успешность выполнения задач доходила до 80%, тогда как у стандартного BM25-поиска она составляла около 50%.

Любопытно и то, как росла библиотека навыков. Оба эксперимента стартовали всего с пяти атомарных seed-навыков — например, базового веб-поиска и операций в терминале. Затем система расширяла набор сама. На GAIA библиотека выросла до 41 навыка, а на HLE — до 235. Не взрывной хаос, а довольно структурированное разрастание. Хотя, ну да, без хорошего контроля такая штука легко может превратиться в чулан с проводами.

Memento-skills skill development

Memento-Skills стартует с базового набора навыков (звёзды) и наращивает новые (круги) по мере решения задач (источник: arXiv)

Где это реально пригодится enterprise-командам

Код Memento-Skills опубликован на GitHub, так что фреймворк уже можно изучать и пробовать. Но главный вопрос для enterprise — не в том, «работает ли это на бенчмарке», а в том, где именно такая механика даст бизнес-эффект.

По словам Wang, всё упирается в переносимость навыков между задачами. Если задачи изолированы, слабо связаны и почти не повторяют друг друга, агенту трудно использовать прошлый опыт — он будет снова и снова учиться с нуля через взаимодействие. В такой среде выигрыш ограничен. А вот там, где есть повторяющиеся паттерны, устойчивые workflow и общая структура, накопленные навыки начинают работать как рычаг. Один раз научился — потом переиспользуешь.

Именно поэтому workflow-сценарии выглядят наиболее естественной средой для таких систем. Там навыки можно комбинировать, оценивать, улучшать и встраивать в управляемый контур. Для компаний, которые строят мультиагентные системы, это особенно важно: чем длиннее и сложнее цепочка действий, тем выше ценность устойчивой памяти, маршрутизации навыков и контролируемой координации.

При этом авторы не советуют натягивать подход на всё подряд. Физические агенты пока остаются малоисследованной областью. Задачи с длинным горизонтом планирования тоже могут потребовать более сложных конструкций — вплоть до multi-agent LLM systems, где нужны координация, планирование и устойчивое исполнение на длинных последовательностях решений. И да, это уже совсем другой уровень инженерии. Без шуток.

Есть и ещё один слой — governance, безопасность и соответствие требованиям. Когда индустрия движется к агентам, которые способны переписывать собственный production-код, вопросы контроля становятся не факультативом, а обязательной частью архитектуры. Базовые unit-тесты полезны, но для enterprise-среды этого, скорее всего, мало. Нужны политики валидации, аудит изменений, контроль доступа, sandboxing и полноценная безопасность AI-агентов, а также AI compliance и соответствие требованиям.

Wang подчёркивает ту же мысль: надёжное самоулучшение требует хорошо спроектированной judge-системы или контура оценки, который способен последовательно измерять качество и направлять изменения. Иначе агенту слишком легко дать свободу там, где нужна дисциплина. Самомодификация без рамок — идея эффектная, но в enterprise она заканчивается, как правило, не аплодисментами.

Если смотреть шире, Memento-Skills интересен не только как исследовательский результат, но и как намёк на следующий этап рынка. Не просто AI-агенты, которые вызывают инструменты, а системы, способные накапливать рабочие навыки, переписывать их под новые условия и делать это без постоянного вмешательства в базовую модель. Возможно, именно здесь и начинается по-настоящему зрелая автоматизация. Не мгновенно, не без оговорок, но уже вполне осязаемо.