Системы агентной памяти
Архитектура памяти определяет возможности агента значительно больше, чем выбор модели. Мы проектируем и внедряем продакшн-системы памяти, которые превращают AI-агентов из stateless-инструментов в обучающиеся системы.
Почему архитектура памяти важнее выбора модели
Большинство компаний гонятся за новейшей LLM, игнорируя фундаментальную проблему: без памяти каждый разговор начинается с нуля. GPT-4o с полным контекстом достигает лишь 60% точности на задачах долгосрочной памяти. Open-source модель на 20B параметров с правильной архитектурой памяти — 83.6%. Память — это не фича. Это основа, на которой строятся все остальные возможности агента.
Три операции: Retain — Recall — Reflect
Биомиметическая архитектура, вдохновленная консолидацией человеческой памяти
- Крупнозернистое чанкирование (3000 символов)
- LLM-извлечение 2-5 фактов на разговор
- Извлечение сущностей 6 типов: PERSON, ORG, LOCATION, PRODUCT, CONCEPT, OTHER
- Разрешение сущностей через взвешенное сходство
- Построение графовых связей: темпоральные, семантические, каузальные
- Семантический поиск через HNSW-индексы pgvector
- Полнотекстовый BM25 через GIN-индексы
- Графовый обход с затуханием и множителями типов связей
- Темпоральный поиск по пересечению временных интервалов
- RRF-фьюжн + кросс-энкодерное ранжирование
- Трёхмерное пространство предпочтений: скептицизм, буквальность, эмпатия
- Управляемая сила смещения (bias strength)
- Формирование и укрепление мнений с оценкой уверенности
- Когерентная личность агента между сессиями
- Настраиваемое количество итераций рефлексии
Четыре сети памяти
Структурное разделение объективных фактов, опыта, мнений и наблюдений обеспечивает эпистемологическую ясность
«Встреча назначена на 5 марта», «API использует OAuth 2.0»
«Я помог пользователю отладить аутентификацию», «Я рекомендовал PostgreSQL»
Усиление: c' = min(c + α, 1.0) | Противоречие: c' = max(c - 2α, 0.0)
Автоматически пересоздаются при изменении базовых фактов
Результаты бенчмарков
Независимо воспроизведены Virginia Tech и The Washington Post
LongMemEval: 500 вопросов по 1.5M токенов. Hindsight с open-source моделью на 20B параметров превосходит full-context GPT-4o.
Hindsight vs. традиционный RAG
| RAG | Hindsight | |
|---|---|---|
| Модель памяти | Плоское хранилище чанков | 4 структурированные сети |
| Извлечение | Одна стратегия (семантика) | 4 параллельных стратегии + RRF |
| Время | Нет — все чанки равны | Темпоральные метаданные на каждом факте |
| Мнения | Не поддерживается | Мнения с оценкой уверенности |
| Обучение | Статический — нет улучшений | Мнения и наблюдения эволюционируют |
| Конфликты | Last-write-wins | 3 стратегии слияния с аудитом |
Архитектура и развёртывание
SynthIQ в продакшне
Мы не просто говорим об агентной памяти — мы запускаем её в продакшне 24/7. ShurickBot, наш автономный AI-ассистент, использует Hindsight как основной слой памяти в связке с Neo4j графом знаний и MCP-серверами. Результат: персистентный мультисессионный контекст, темпоральное рассуждение и агент, который действительно учится.