Лучшие материалы по безопасности AI-агентов и Agentic AI за апрель 2026
Если коротко: апрель выдался нервным. Разговор о безопасности Agentic AI окончательно ушёл из академических споров в суровую практику — туда, где уже есть эксплуатация, реальные CVE, атаки на память, компрометация инструментов и, что особенно неприятно, почти полное отсутствие зрелой модели идентичности у AI-агентов.
На повестку сильно повлияли обсуждения вокруг RSA Conference и волна публикаций об OpenClaw, Copilot-подобных инструментах и автономных агентных средах. Всё это подталкивает рынок к довольно очевидному, но почему-то всё ещё болезненному выводу: чем больше у агента автономии, доступа к данным и прав на выполнение действий, тем жёстче должны быть безопасность AI-агентов, контроль полномочий, аудит и архитектурная дисциплина. И да — «потом закроем» тут уже не работает.
Статистика выпуска
Всего в подборке: 33 материала.
Разбивка по темам — ниже.
Материалы по безопасности Agentic AI
Исследования
Фреймворк для формализации безопасности LLM-агентов — OpenReview
Авторы предлагают формальную модель безопасности LLM-агентов, сведённую к четырём базовым свойствам. Ключевая мысль проста, но важна: защиты на pattern matching слишком хрупкие, а многие существующие бенчмарки тестируют не то, что реально ломают атакующие.
Непрямая prompt injection через веб-интерфейс, замеченная в реальных атаках — Unit 42
Unit 42 изучила полевую телеметрию и выделила 22 техники непрямой prompt injection. Это уже не лабораторная страшилка, а рабочий инструмент атак против AI-агентов, особенно тех, кто читает веб-контент и имеет доступ к инструментам.
Аудит авторизации в 30 фреймворках AI-агентов
Исследование получилось, мягко говоря, тревожным: 93% из 30 агентных фреймворков используют API-ключи без scope-ограничений. Поддержки идентичности на уровне отдельного агента нет вообще, а механизмы пользовательского согласия отсутствуют в 97% случаев. Для компаний, которые планируют разработку AI-агентов и автоматизацию, это прямой сигнал: безопасность надо закладывать в архитектуру сразу, а не после первого инцидента.
Атаки на поток управления памятью в LLM-агентах
Память — одна из самых недооценённых поверхностей атаки. В работе показано, как отравленные записи памяти могут устойчиво перехватывать выполнение задач. Успешность атак превышала 90% даже против сильных моделей вроде GPT-5 mini и Claude Sonnet 4.5. Неприятная штука. Очень.
Единый фреймворк защиты для multi-agent систем
TrinityGuard предлагает трёхуровневую таксономию рисков для multi-agent систем и показывает, насколько слабо текущие реализации проходят проверки безопасности — средний результат составил всего 7,1%. Для команд, которые строят мультиагентные системы, материал почти обязательный.
Анализ безопасности и защитный фреймворк для OpenClaw
OpenClaw протестировали в 47 adversarial-сценариях и обнаружили выходы из sandbox при среднем уровне защиты около 17%. Авторы предложили слой HITL-защиты, который поднял показатель до 91,5%. Разрыв, как видите, не косметический — пропасть.
AI-агентам нужен контроль памяти при большом контексте
В этой работе представлен Agent Cognitive Compressor (ACC) — биоинспирированный контроллер памяти, который помогает снижать дрейф контекста и ограничивать вред от накопления длинных транскриптов. Особенно актуально там, где используется агентная память и RAG.
Уязвимости Agentic AI
Уязвимость в Chrome позволяла расширениям перехватывать нового AI-ассистента Gemini Live
Unit 42 описала CVE-2026-0628 — уязвимость высокой критичности в панели Gemini Live для Chrome. Вредоносные расширения могли перехватывать привилегированного AI-ассистента и получать доступ к камере и микрофону. Да, звучит плохо. Потому что это и есть плохо.
Критическая уязвимость OpenClaw вскрыла риски AI-агентов
Проблема в локальном WebSocket-шлюзе OpenClaw позволяла вредоносным сайтам перехватывать AI-агентов разработчиков без участия пользователя, используя доверие к localhost. Классический пример того, как удобство разработки превращается в дыру размером с ворота.
VU#221883 — в CrewAI обнаружено несколько уязвимостей
Четыре CVE в CrewAI позволяют собрать цепочку от prompt injection до RCE, SSRF и чтения файлов. Уязвимости затрагивают Code Interpreter и небезопасные конфигурации по умолчанию.
Уязвимость OpenClaw позволяла сайтам перехватывать AI-агентов
SecurityWeek отдельно разобрала localhost WebSocket-проблему в OpenClaw. Из-за ошибки JavaScript в браузере можно было подбирать пароли brute force-методом, обходя rate limiting через обработку исключений. Неровно сказано? Зато суть ясна: защита была дырявая.
CVE-2026-32922: критическое повышение привилегий в OpenClaw
Уязвимость с CVSS 9.9 позволяла токенам с низкими правами эскалироваться до admin с последующим RCE. Исследователи нашли свыше 135 000 инстансов, доступных из интернета. Цифра, честно говоря, из тех, от которых хочется молча закрыть ноутбук на минуту.
Защита Agentic AI
AI-агенты для кодинга уже работают на ваших машинах — а вы точно знаете, что они делают?
Sysdig TRT проинструментировала Claude Code, Gemini CLI и Codex CLI на уровне syscall и выделила четыре паттерна обнаружения. В публикации есть правила Falco/eBPF для мониторинга угроз, связанных с агентами для разработки.
slowmist/openclaw-security-practice-guide — GitHub
SlowMist развивает подход, в котором руководство по безопасности пишется не только для человека, но и для самого AI-агента. Это важный сдвиг: от обычного hardening к agentic zero-trust и машинно-исполняемым правилам.
Каждый инструмент — это поверхность для injection
Материал сводит вместе анонсы защит от крупных AI-провайдеров и предлагает шестислойный стек защиты от prompt injection через результаты инструментов. Есть и код, и практические схемы. Не академщина ради академщины — вполне прикладная вещь.
Agent Skill Trust & Signing Service — Ken Huang
STSS — open-source слой защиты, который проверяет навыки AI-агентов через статический анализ и аудит поведения, а затем выдаёт криптографические аттестации на базе деревьев Меркла и SHA-256. Для enterprise-среды и контроля цепочек доверия идея очень здравая.
Моделирование угроз
Девять поверхностей атаки, о которых ваш вендор AI-безопасности, возможно, даже не говорил
В материале разбираются 10 архитектурных уязвимостей — от отравления памяти до доверия между агентами, — которые могут привести к следующей утечке данных. Хороший текст, чтобы встряхнуть слишком самоуверенные команды.
От безопасного agentic AI к безопасному agentic web: вызовы, угрозы и будущие направления
Работа предлагает таксономию, согласованную с компонентами системы, и охватывает шесть семейств угроз и шесть стратегий защиты. Полезно для тех, кто занимается архитектурой AI-агентов и проектирует веб-агентов с доступом к внешним средам.
Что на самом деле сделал бы rogue AI-агент? — LessWrong
Матрица угроз в духе MITRE ATT&CK описывает шесть тактик и более 20 техник для kill chain rogue-агента. Полезный способ посмотреть на автономного противника не как на абстракцию, а как на набор конкретных шагов.
Moltbook: когда AI-агенты строят собственную социальную сеть, что может пойти не так?
Здесь представлена системная модель угроз для социальных сетей агентов. Пять рисков безопасности сопоставлены с OWASP ASI. Любопытный, местами даже слегка безумный кейс — но именно поэтому полезный.
Безопасность Agentic AI для CISO
AI guardrails против red teaming
AI red teaming находит то, что guardrails часто пропускают: многошаговые цепочки атак, семантический перехват целей, обходы через инструменты. В публикации хорошо объяснён разрыв в покрытии и почему в зрелой программе безопасности нужны оба подхода.
У AI-агентов нет идентичностей — и это уже кризис безопасности
Только 21,9% организаций рассматривают AI-агентов как сущности с собственной идентичностью. В статье предлагается пятислойная архитектура идентичности для корпоративного управления агентами. Для enterprise AI это не факультатив, а база.
Руководитель Meta по AI-безопасности не смогла остановить собственного агента
Публикация использует громкий кейс, чтобы показать: стандартные корпоративные контроли плохо работают против автономного AI. Внутри — пять конкретных мер контроля, которые стоит внедрять уже сейчас.
OpenClaw доказал, что high-agency AI реален. Теперь бизнесу нужна стратегия безопасности, а не запреты
Запретить high-agency AI — соблазнительно, но бесполезно: это только подталкивает сотрудников к shadow AI. Гораздо разумнее строить проактивную стратегию, включающую AI compliance и соответствие требованиям, контроль доступа, аудит действий агентов и постоянное тестирование.
Безопасность Agentic AI 101
На веб-странице есть инструкции. У агента — ваши учётные данные.
Prompt injection выросла из проблемы уровня модели в угрозу уровня инфраструктуры. Этот материал собирает воедино раскрытия по браузерным агентам и отравлению MCP у крупных AI-вендоров.
OWASP Top 10 агентов и AI-уязвимостей: шпаргалка 2026
Подробная шпаргалка сводит 20 пунктов OWASP к трём архитектурным категориям рисков. Удобная точка входа для инженеров и руководителей, которые только выстраивают практику безопасности AI-агентов.
Статьи
Rogue AI-агенты могут кооперироваться для взлома систем
Irregular показала наступательное поведение multi-agent систем, включая подделку admin-cookie и отключение endpoint-защиты. Кооперация агентов — это уже не сюжет для технотриллера, а вполне рабочий сценарий угроз.
Что запись CVE для OpenClaw говорит нам об agentic AI
Разбор 104 CVE в OpenClaw показывает, какие классы уязвимостей рождаются в архитектуре insecure-by-design. Агенты, созданные в логике vibe coding, формируют динамическую поверхность атаки, которую нельзя закрыть одной-двумя заплатками.
Эксплуатация
hackerbot-claw: AI-бот, который реально эксплуатирует GitHub Actions
Автономный агент на базе Claude Opus эксплуатирует GitHub Actions в реальных условиях. Бот добивался RCE на крупных целях, в том числе через отравленные функции Go init(). Тут уже без иллюзий: offensive agentic AI пришёл.
Уязвимость command injection в OpenAI Codex раскрывает GitHub-токены
BeyondTrust обнаружила серьёзную command injection-уязвимость в OpenAI Codex, позволяющую похищать GitHub OAuth-токены через несанитизированные параметры имени ветки.
Инструменты безопасности
NVIDIA NemoClaw: эталонный стек для запуска OpenClaw в OpenShell
NVIDIA NemoClaw — это open-source эталонный стек, упрощающий более безопасный запуск ассистентов OpenClaw. Важная деталь — использование runtime NVIDIA OpenShell как дополнительного защитного слоя.
Pipelock: open-source firewall для агентов
Это open-source firewall с 11-слойным pipeline для DLP и обнаружения отравления MCP-инструментов. В основе — capability separation для защиты агентных workflows. Звучит сухо, но инструмент интересный.
Атака
Отравление agent card: уязвимость инъекции метаданных
Proof of concept показывает, как вредоносная A2A agent card может встраивать adversarial-инструкции и приводить к эксфильтрации данных через host LLM. Маленькая деталь в метаданных — а последствия, ну, совсем не маленькие.
Стресс-тестирование становится базовым стандартом
Пожалуй, главный вывод месяца такой: нельзя защитить то, что вы ни разу по-настоящему не пытались сломать. Атакующие уже ковыряют agentic-инфраструктуру всерьёз, пока многие команды всё ещё спорят о терминах, рисуют красивые схемы и откладывают патчи «на следующий спринт». Не лучший план, если честно.
Командам безопасности нужны непрерывный red teaming, стресс-тестирование интеграций, проверка памяти и инструментов в adversarial-среде, контроль идентичностей агентов, а также регулярная переоценка архитектуры. Иначе автономность агента растёт быстрее, чем зрелость защиты. Такое бывает. Часто бывает.
Выиграют те организации, которые научатся ломать собственные AI-системы раньше злоумышленников — и делать из этого не разовую акцию, а операционную норму.
Подпишитесь на обновления
Подпишитесь на обновления
Будьте в курсе происходящего: получайте первыми новости, важные исследования, AI-инциденты и практические решения в области AI-безопасности — прямо на почту.
Предыдущий пост

Adversa AI получает награду “Most Innovative Agentic AI Security” на Global InfoSec Awards во время RSA Conference 2026
Компания была отмечена среди сотен вендоров за развитие continuous AI red teaming и безопасности Agentic AI.



