Назад к услугам
Глубокое погружение

Системы агентной памяти

Архитектура памяти определяет возможности агента значительно больше, чем выбор модели. Мы проектируем и внедряем продакшн-системы памяти, которые превращают AI-агентов из stateless-инструментов в обучающиеся системы.

Почему архитектура памяти важнее выбора модели

Большинство компаний гонятся за новейшей LLM, игнорируя фундаментальную проблему: без памяти каждый разговор начинается с нуля. GPT-4o с полным контекстом достигает лишь 60% точности на задачах долгосрочной памяти. Open-source модель на 20B параметров с правильной архитектурой памяти — 83.6%. Память — это не фича. Это основа, на которой строятся все остальные возможности агента.

Без памяти агент не может учиться на опыте
Без памяти каждая сессия — холодный старт
Без памяти нет персонализации и контекста
Платформенная память (ChatGPT, Claude) — это lock-in, а не архитектура

Три операции: Retain — Recall — Reflect

Биомиметическая архитектура, вдохновленная консолидацией человеческой памяти

Retain — Сохранение
Преобразует сырые разговоры в структурированные факты с временными диапазонами. Извлечение нарративных фактов, сущностей, графовых связей и обновление мнений при поступлении новых данных.
  • Крупнозернистое чанкирование (3000 символов)
  • LLM-извлечение 2-5 фактов на разговор
  • Извлечение сущностей 6 типов: PERSON, ORG, LOCATION, PRODUCT, CONCEPT, OTHER
  • Разрешение сущностей через взвешенное сходство
  • Построение графовых связей: темпоральные, семантические, каузальные
Recall — Извлечение
Четырёхстратегийный параллельный поиск (TEMPR) с объединением через Reciprocal Rank Fusion и нейронным ранжированием.
  • Семантический поиск через HNSW-индексы pgvector
  • Полнотекстовый BM25 через GIN-индексы
  • Графовый обход с затуханием и множителями типов связей
  • Темпоральный поиск по пересечению временных интервалов
  • RRF-фьюжн + кросс-энкодерное ранжирование
Reflect — Рефлексия
Генерация ответов с учётом предпочтений агента через систему CARA. Формирование и обновление мнений в сети мнений.
  • Трёхмерное пространство предпочтений: скептицизм, буквальность, эмпатия
  • Управляемая сила смещения (bias strength)
  • Формирование и укрепление мнений с оценкой уверенности
  • Когерентная личность агента между сессиями
  • Настраиваемое количество итераций рефлексии

Четыре сети памяти

Структурное разделение объективных фактов, опыта, мнений и наблюдений обеспечивает эпистемологическую ясность

World — Мировые факты
Объективные факты о внешней среде, независимые от перспективы агента.

«Встреча назначена на 5 марта», «API использует OAuth 2.0»

Experience — Опыт
Биографическая информация об агенте, написанная от первого лица.

«Я помог пользователю отладить аутентификацию», «Я рекомендовал PostgreSQL»

Opinion — Мнения
Субъективные суждения с оценкой уверенности (0-1), которые обновляются при поступлении новых доказательств.

Усиление: c' = min(c + α, 1.0) | Противоречие: c' = max(c - 2α, 0.0)

Observation — Наблюдения
Нейтральные сводки сущностей, синтезированные из множества фактов. Долговечные знания, консолидированные из эфемерных фактов.

Автоматически пересоздаются при изменении базовых фактов

Результаты бенчмарков

Независимо воспроизведены Virginia Tech и The Washington Post

Full-context GPT-4o
60.2%
Zep (GPT-4o)
71.2%
Hindsight (OSS-20B)
83.6%
Hindsight (Gemini-3)
91.4%

LongMemEval: 500 вопросов по 1.5M токенов. Hindsight с open-source моделью на 20B параметров превосходит full-context GPT-4o.

Мультисессия: 21% → 80%Темпоральное рассуждение: 32% → 80%

Hindsight vs. традиционный RAG

RAGHindsight
Модель памятиПлоское хранилище чанков4 структурированные сети
ИзвлечениеОдна стратегия (семантика)4 параллельных стратегии + RRF
ВремяНет — все чанки равныТемпоральные метаданные на каждом факте
МненияНе поддерживаетсяМнения с оценкой уверенности
ОбучениеСтатический — нет улучшенийМнения и наблюдения эволюционируют
КонфликтыLast-write-wins3 стратегии слияния с аудитом

Архитектура и развёртывание

PostgreSQL + pgvector — проверенный стек, не проприетарная БД
Docker-контейнер со встроенной pg0 — zero-config запуск
Helm-чарты для Kubernetes
Лицензия MIT — полный контроль
SDK: Python, Node.js, REST API, CLI
Встроенный MCP-сервер для интеграции с Claude Code, Cursor
OpenTelemetry для observability (Grafana, Langfuse, DataDog)

SynthIQ в продакшне

Мы не просто говорим об агентной памяти — мы запускаем её в продакшне 24/7. ShurickBot, наш автономный AI-ассистент, использует Hindsight как основной слой памяти в связке с Neo4j графом знаний и MCP-серверами. Результат: персистентный мультисессионный контекст, темпоральное рассуждение и агент, который действительно учится.

Hindsight как слой агентной памяти
Neo4j как граф знаний организации
MCP-серверы для универсального доступа
Фоновая консолидация и ментальные модели
Разрешение конфликтов памяти с аудит-трейлом

Готовы дать вашим агентам память?

Обсудим, как архитектура памяти трансформирует ваши AI-системы