Kimi K2.6 — открытая нативно мультимодальная агентная модель от Moonshot AI. Вышла 20 апреля 2026 года. Акцент — на длинных агентных сессиях, кодинге и оркестрации роя агентов (Agent Swarm). Главный тезис Moonshot: полный рабочий день автономной работы без потери нити.

Коротко: открытая модель на 1 трлн параметров (MoE, 32B активных), окно 256K токенов, нативная поддержка текста, картинок и видео. Сильна в коде, длинных multi-step сессиях и роевой оркестрации до 300 агентов. Официальный API — $0.60 за вход и $2.50 за выход на 1M токенов. В разы дешевле закрытых конкурентов. Можно брать в облаке или запускать локально — но учтите, что локально это тяжёлая модель.

Что это

Kimi K2.6 — открытая модель китайской компании Moonshot AI, флагман семейства Kimi K2. Веса выложены публично (модифицированная лицензия MIT), модель можно скачать, дообучить и развернуть на своей инфраструктуре.

Главные характеристики:

  • Архитектура MoE (Mixture of Experts) — 1 трлн параметров всего, ~32 млрд активируется на каждый токен. Качество крупной модели при стоимости инференса небольшой.
  • Окно 256K токенов (262 144) — хватает, чтобы держать в контексте крупный проект или пакет документов целиком.
  • Нативная мультимодальность — текст, изображения и видео на вход через визуальный энкодер MoonViT (400M). Это уже не «просто языковая модель», а мультимодальный агент.
  • Агентный фокус — обучена работать в длинных сессиях с инструментами, multi-step планированием и роевой оркестрацией (Agent Swarm).
  • Два режима — instant (быстрый ответ) и thinking (пошаговое рассуждение с вызовом инструментов).
  • Сильный кодинг — по собственным бенчмаркам Moonshot держится вровень с топовыми закрытыми моделями класса Claude Opus 4.7, на части агентных задач выигрывает.

Линейка Kimi K2: K2 (июль 2025) → K2 Thinking (ноябрь 2025) → K2.5 (январь 2026, добавили зрение и Agent Swarm) → K2.6 (апрель 2026).

Зачем нужно

  • Long-horizon автономные сессии там, где другие модели «разваливаются» через 2–3 часа.
  • Кодинг уровня топовых закрытых моделей при цене в разы ниже — рефакторинг, дебаг, бизнес-логика.
  • Приватные сценарии: обработка персональных данных, внутренняя документация, юридические тексты без отправки в облако.
  • Agent Swarm — задачи, которые раньше требовали десятка отдельных запросов, теперь укладываются в один автономный прогон.
  • Открытые веса — можно дообучить под свою задачу и данные, без зависимости от вендора.

Как устроено

Где модель выигрывает

Длинные агентные сессии. Многие модели хороши на первых 30 минутах и разваливаются к четырём часам. Kimi K2.6 специально тренировалась на длинных контекстных цепочках с инструментами. По внутренним тестам Moonshot она выдерживает многочасовые автономные прогоны: в показательном кейсе модель за один прогон ~13 часов рефакторила 8-летний движок биржевого матчинга (exchange-core), сделав 1000+ вызовов инструментов и изменив 4000+ строк кода. Это заявления самой компании, не независимый аудит.

Кодинг. По отзывам разработчиков, Kimi K2.6 сравнима с топовыми закрытыми моделями уровня Claude Opus 4.7 на задачах рефакторинга, дебага и писания бизнес-логики на Python, Go и TypeScript. Слабее на редких языках и системных задачах (ядра, низкоуровневые оптимизации).

Приватные сценарии. Открытые веса дают возможность запустить модель в периметре компании. Сценарии: обработка персональных данных, внутренняя документация, работа с юридическими текстами без отправки в облако.

Мультимодальность и режимы работы

K2.6 принимает на вход не только текст, но и изображения и видео — за это отвечает визуальный энкодер MoonViT. На практике модель можно просить разобрать скриншот интерфейса, диаграмму, кадр из видео или PDF со схемами, а не только текстовое описание.

Важная оговорка: ввод изображений и видео официально поддержан в API Moonshot, но не у всех хостинг-провайдеров он выведен наружу. Например, в DeepInfra картинки на вход через API недоступны — зрение используется моделью внутренне. Если мультимодальность нужна именно через API, проверяйте конкретного провайдера.

У модели два режима:

  • Instant — быстрый ответ без длинной цепочки рассуждений. Подходит для чата, простых правок кода, генерации текста.
  • Thinking — пошаговое рассуждение с вызовом инструментов (interleaved thinking + multi-step tool call). Модель чередует размышление и вызовы функций, выдерживая сотни последовательных шагов без потери нити. Подходит для исследований, сложного дебага, многошаговых процедур.

Thinking-режим заметно повышает качество на сложных задачах, но генерирует значительно больше токенов, чем instant. На длинных сессиях это влияет и на стоимость, и на скорость — выбирайте режим под задачу.

Agent Swarm — рой агентов

Главное нововведение K2.6. Agent Swarm разбивает задачу на разнородные подзадачи и запускает их параллельно силами специализированных суб-агентов, которые модель создаёт сама под конкретную работу.

  • Масштаб — до 300 суб-агентов и 4 000 скоординированных шагов в одном прогоне. Для сравнения, у K2.5 было 100 агентов и 1 500 шагов.
  • Композиция навыков — в одном автономном прогоне рой совмещает широкий поиск, глубокий ресёрч, анализ больших документов и длинные тексты.
  • Готовые артефакты — на выходе не сырой ответ, а целые документы, сайты, слайды и таблицы.

Практический смысл: задачи, которые раньше распадались на десяток отдельных запросов, теперь укладываются в один автономный прогон. Это и есть тезис Moonshot «один человек делает то, что раньше требовало команды».

Когда использовать

Таблица «ситуация → подходит / не подходит»:

СитуацияПодходит?Почему
Long-horizon агентная задача (часы автономной работы)ДаСпециально обучена на длинных цепочках с инструментами.
Сложный многошаговый кодингДаSWE-Bench Verified ~72, на уровне топовых закрытых моделей.
Приватные данные без облакаДаОткрытые веса, можно развернуть в периметре.
Роевая оркестрация (параллельные суб-агенты)ДаAgent Swarm до 300 агентов и 4 000 шагов в одном прогоне.
Простой чат / короткие правкиНетИзбыточно: возьмите instant-режим более лёгкой модели или облачную GPT-class.
Системный кодинг (ядра, низкоуровневые оптимизации)НетСлабее закрытых моделей на редких языках и системных задачах.

Пример

Базовый локальный запуск через Ollama:

ollama pull kimi-k2.6
ollama run kimi-k2.6

Главное, что нужно понимать про локальный запуск: это модель на 1 трлн параметров. Даже в INT4 её веса занимают ~550–600 GB, поэтому в один Mac Studio (даже на 256 GB) она не помещается. Реалистичный сценарий — кластер из нескольких Mac Studio M3 Ultra (суммарно 512 GB+ unified memory) с распределённым инференсом (MLX distributed, Exo и т. п.), либо более агрессивная квантизация с выгрузкой и потерей скорости. Один компьютер потребительского класса для полноценного запуска не подходит.

Облачный API Moonshot — OpenAI-совместимый endpoint. Достаточно поменять base_url и ключ, и SDK OpenAI работает с Kimi без изменений.

Цены

  • Официальный API Moonshot — $0.60 за 1M входных токенов и $2.50 за 1M выходных. Примерно в 8 раз дешевле по входу и в 10 раз по выходу, чем у Claude Opus того же класса.
  • Сторонние провайдеры (Together, Fireworks, OpenRouter, DeepInfra) — Artificial Analysis отслеживает K2.6 у девяти провайдеров, blended-цена гуляет в диапазоне $1.15–$2.15 за 1M токенов, при этом сильно различаются скорость и задержки.

Для России оплата зарубежного API упирается в платёжку. Если нужен счёт в рублях — смотрите на агрегаторы вроде OpenRouter либо на локальный запуск через Ollama.

Бенчмарки

Собственные замеры Moonshot (Kimi в thinking-режиме), а не независимый аудит — относитесь к ним как к заявлениям вендора. Цифры — проценты, выше лучше.

БенчмаркЧто проверяетKimi K2.6
HLE (with tools)Экспертные знания + инструменты54.0
SWE-Bench VerifiedРеальные баг-фиксы (Python)~72
SWE-Bench ProСложные инженерные задачи58.6
SWE-Bench MultilingualКод на разных языках76.7
BrowseCompАгентный веб-поиск83.2
ToolathlonВызов инструментов50.0

Как читать. Прямого сравнения с закрытыми моделями в одной таблице мы сознательно не приводим: публично проверяемых цифр по GPT- и Claude-линейкам под те же условия нет. Качественно картина такая: на кодинге K2.6 в одной лиге с топовыми закрытыми моделями, а на части агентных задач (например, BrowseComp) заметно впереди — при кратно меньшей цене. Независимые тестировщики оценивают, что она закрывает ~80–85% задач уровня Claude Opus 4.7 при цене порядка 5–12% от него.

Ограничения

ОграничениеПояснение
Локальный запуск тяжёлый1 трлн параметров и MoE-архитектура требуют серверной инфраструктуры, а не обычного ноутбука.
Мультимодальность зависит от провайдераDeepInfra и некоторые API дают vision-возможности, но не все маршруты поддерживают изображения одинаково.
Thinking-режим дорогой — Для простого чата он часто избыточен:больше токенов, выше задержка и стоимость.
Бенчмарки не независимыеЧасть результатов заявлена в релизах Moonshot AI, поэтому для важных решений нужна своя проверка.
Системный кодинг слабееВ задачах системного программирования модель может уступать Claude Sonnet 4.5.
Провайдеры различаютсяOpenRouter, DeepInfra и Groq отличаются ценой, лимитами, задержкой и поддерживаемыми возможностями.
Лицензию нужно проверятьПри коммерческом использовании важно отдельно проверить актуальные условия Moonshot AI и выбранного провайдера.

Антипаттерны

АнтипаттернПочему опасно
Полная модель на ноутбукеНе пытаться запускать K2.6 локально без достаточного GPU-кластера или специализированного провайдера.
Thinking для всегоНе включать reasoning-режим для простого чата, FAQ и коротких ответов.
Мультимодальность без проверкиНе рассчитывать на работу с изображениями, пока конкретный API-маршрут не проверен руками.
Сложная модель для простых задачНе брать K2.6 там, где достаточно дешёвой маленькой модели или обычного RAG-поиска.

Чеклист

ПроверкаЧто сделать
Long-horizon задача — Убедиться, что нужен именно агентный режим:браузер, терминал, многошаговый код или исследование.
Режим моделиInstant — для быстрых ответов, Thinking — для сложного планирования и рассуждений.
Локальный запускПроверить инфраструктуру или выбрать облачного провайдера вместо самостоятельного хостинга.
МультимодальностьВыбрать провайдера, где vision реально доступен и стабильно работает.
Цена и провайдерСравнить OpenRouter, DeepInfra, Groq и лимиты под конкретный объём запросов.
ЛицензияПроверить условия Moonshot AI и правила коммерческого использования.