Moonshot AI Kimi K2.5 в Workers AI: 256k контекст, tool calling и масштабируемый inference для AI-агентов
Журнал изменений
Свежие обновления и заметные улучшения в Cloudflare.
Moonshot AI Kimi K2.5 теперь доступна в Workers AI
Cloudflare, похоже, всерьёз зашла на территорию крупных моделей. @cf/moonshotai/kimi-k2.5 — первая open-source frontier-scale модель, доступная в Workers AI. И это не просто «ещё одна модель в каталоге», а вполне серьёзный инструмент для разработки AI-агентов и автоматизации: контекстное окно 256k, multi-turn tool calling, поддержка vision-входов и структурированные ответы.
Если говорить проще — теперь весь жизненный цикл агента можно запускать на одной платформе Cloudflare, без лишних прыжков между сервисами. Для команд, которые строят продакшен-решения, это особенно важно: меньше склейки, меньше хрупких мест, меньше того самого «ну оно вроде работает, только не трогайте».
Kimi K2.5 уже успела показать себя как быстрая и экономичная альтернатива более тяжёлым проприетарным моделям. А на фоне того, как объёмы inference растут буквально как на дрожжах, доступ к frontier intelligence за заметно меньшие деньги — штука, мягко говоря, не лишняя.
Для компаний, которые проектируют корпоративные AI-решения, это ещё и хороший сигнал: можно быстрее собирать архитектуру AI-агентов, масштабировать агентные сценарии и не раздувать бюджет на инференс сильнее, чем нужно.
- Контекстное окно 256 000 токенов — чтобы удерживать длинную историю диалога, описания инструментов и даже крупные фрагменты codebase в рамках одной агентной сессии.
- Multi-turn tool calling — для AI-агентов, которые вызывают инструменты не один раз, а последовательно, по ходу решения задачи.
- Vision inputs — модель умеет работать не только с текстом, но и с изображениями.
- Структурированные выходные данные — поддерживаются JSON mode и JSON Schema, что сильно упрощает надёжный парсинг на следующем этапе.
- Function calling — для интеграции внешних API, сервисов и внутренних инструментов в агентные workflow.
Короче говоря, набор возможностей здесь заточен не под демо «смотрите, чатик отвечает», а под реальные сценарии: корпоративные ассистенты, агентная автоматизация, анализ документов, исследовательские пайплайны, обработка кода. Всё это уже звучит куда практичнее.
Вот где начинается самое интересное. Когда агент отправляет новый prompt, он, как правило, тащит за собой весь предыдущий контекст: старые сообщения, определения инструментов, системные инструкции, накопленную память сессии. И да — это дорого, если каждый раз считать всё заново.
Prefix caching позволяет не пересчитывать уже известную общую часть запроса. За счёт этого снижается нагрузка на этап prefill, уменьшается задержка до первого токена (TTFT) и растёт пропускная способность в токенах в секунду (TPS). Для долгих агентных диалогов, особенно там, где есть агентная память и RAG, это не просто приятная оптимизация, а вполне ощутимая экономия времени и денег.
В Workers AI prefix caching уже поддерживался и раньше, но теперь Cloudflare дополнительно показывает cached tokens в метриках использования и применяет к ним отдельную, более низкую цену по сравнению с обычными input tokens. Мелочь? Вообще-то нет.
curl -X POST \
"https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \
-H "Authorization: Bearer {api_token}" \
-H "Content-Type: application/json" \
-H "x-session-affinity: ses_12345678" \
-d '{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is prefix caching and why does it matter?"
}
],
"max_tokens": 2400,
"stream": true
}'Некоторые клиенты, например OpenCode ↗, уже автоматически используют session affinity. А стартовый проект Agents SDK ↗ вообще берёт большую часть настройки на себя. Удобно. Без лишней возни — ну, почти.
Если объём запросов уже не помещается в рамки синхронной обработки, Cloudflare предлагает отправлять inference-задачи асинхронно. Для этого переработан Asynchronous Batch API: теперь используется pull-based механика, при которой запросы забираются из очереди по мере появления свободной вычислительной ёмкости.
По внутренним тестам Cloudflare такие запросы обычно отрабатывают примерно за 5 минут, хотя фактическое время, конечно, зависит от текущей нагрузки. То есть не мгновенно — но для пакетных сценариев это чаще всего нормально.
Именно такой подход особенно полезен для задач, где не нужен ответ «прямо сейчас»: анализ репозиториев, исследовательские агенты, массовая обработка документов, фоновые пайплайны, мультиагентные системы с длинными цепочками действий. В таких случаях асинхронный API помогает обходить ошибки нехватки ёмкости и держать workflow в более предсказуемом состоянии.
Чтобы включить асинхронную обработку, нужно передать queueRequest: true:
// 1. Push a batch of requests into the queue
const res = await env.AI.run(
"@cf/moonshotai/kimi-k2.5",
{
requests: [
{
messages: [{ role: "user", content: "Tell me a joke" }],
},
{
messages: [{ role: "user", content: "Explain the Pythagoras theorem" }],
},
],
},
{ queueRequest: true },
);
// 2. Grab the request ID
const requestId = res.request_id;
// 3. Poll for the result
const result = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
request_id: requestId,
});
if (result.status === "queued" || result.status === "running") {
// Retry by polling again
} else {
return Response.json(result);
}Если polling вам не по душе — а он мало кому по душе, если честно, — можно подключить уведомления о событиях и получать сигнал о завершении inference автоматически.
Kimi K2.5 доступна через binding Workers AI (env.AI.run()), REST API по маршрутам /run и /v1/chat/completions, через AI Gateway, а также через endpoint с совместимостью OpenAI.
Если ваша команда строит enterprise-решения, стоит сразу думать не только о запуске модели, но и о более широком контуре: безопасность, контроль доступа, трассировка, хранение контекста, соответствие внутренним и отраслевым требованиям. Иначе потом всё это приходится пришивать сбоку — криво, нервно и дороже. Для таких сценариев обычно критичны безопасность AI-агентов и AI compliance и соответствие требованиям.
Подробности доступны на странице модели Kimi K2.5, в разделе pricing и в документации по prompt caching.
