Kimi K2.6 — открытая нативно мультимодальная агентная модель от Moonshot AI. Вышла 20 апреля 2026 года. Акцент — на длинных агентных сессиях, кодинге и оркестрации роя агентов (Agent Swarm). Главный тезис Moonshot: полный рабочий день автономной работы без потери нити.
Коротко: открытая модель на 1 трлн параметров (MoE, 32B активных), окно 256K токенов, нативная поддержка текста, картинок и видео. Сильна в коде, длинных multi-step сессиях и роевой оркестрации до 300 агентов. Официальный API — $0.60 за вход и $2.50 за выход на 1M токенов. В разы дешевле закрытых конкурентов. Можно брать в облаке или запускать локально — но учтите, что локально это тяжёлая модель.
Что это
Kimi K2.6 — открытая модель китайской компании Moonshot AI, флагман семейства Kimi K2. Веса выложены публично (модифицированная лицензия MIT), модель можно скачать, дообучить и развернуть на своей инфраструктуре.
Главные характеристики:
- Архитектура MoE (Mixture of Experts) — 1 трлн параметров всего, ~32 млрд активируется на каждый токен. Качество крупной модели при стоимости инференса небольшой.
- Окно 256K токенов (262 144) — хватает, чтобы держать в контексте крупный проект или пакет документов целиком.
- Нативная мультимодальность — текст, изображения и видео на вход через визуальный энкодер MoonViT (400M). Это уже не «просто языковая модель», а мультимодальный агент.
- Агентный фокус — обучена работать в длинных сессиях с инструментами, multi-step планированием и роевой оркестрацией (Agent Swarm).
- Два режима — instant (быстрый ответ) и thinking (пошаговое рассуждение с вызовом инструментов).
- Сильный кодинг — по собственным бенчмаркам Moonshot держится вровень с топовыми закрытыми моделями класса Claude Opus 4.7, на части агентных задач выигрывает.
Линейка Kimi K2: K2 (июль 2025) → K2 Thinking (ноябрь 2025) → K2.5 (январь 2026, добавили зрение и Agent Swarm) → K2.6 (апрель 2026).
Зачем нужно
- Long-horizon автономные сессии там, где другие модели «разваливаются» через 2–3 часа.
- Кодинг уровня топовых закрытых моделей при цене в разы ниже — рефакторинг, дебаг, бизнес-логика.
- Приватные сценарии: обработка персональных данных, внутренняя документация, юридические тексты без отправки в облако.
- Agent Swarm — задачи, которые раньше требовали десятка отдельных запросов, теперь укладываются в один автономный прогон.
- Открытые веса — можно дообучить под свою задачу и данные, без зависимости от вендора.
Как устроено
Где модель выигрывает
Длинные агентные сессии. Многие модели хороши на первых 30 минутах и разваливаются к четырём часам. Kimi K2.6 специально тренировалась на длинных контекстных цепочках с инструментами. По внутренним тестам Moonshot она выдерживает многочасовые автономные прогоны: в показательном кейсе модель за один прогон ~13 часов рефакторила 8-летний движок биржевого матчинга (exchange-core), сделав 1000+ вызовов инструментов и изменив 4000+ строк кода. Это заявления самой компании, не независимый аудит.
Кодинг. По отзывам разработчиков, Kimi K2.6 сравнима с топовыми закрытыми моделями уровня Claude Opus 4.7 на задачах рефакторинга, дебага и писания бизнес-логики на Python, Go и TypeScript. Слабее на редких языках и системных задачах (ядра, низкоуровневые оптимизации).
Приватные сценарии. Открытые веса дают возможность запустить модель в периметре компании. Сценарии: обработка персональных данных, внутренняя документация, работа с юридическими текстами без отправки в облако.
Мультимодальность и режимы работы
K2.6 принимает на вход не только текст, но и изображения и видео — за это отвечает визуальный энкодер MoonViT. На практике модель можно просить разобрать скриншот интерфейса, диаграмму, кадр из видео или PDF со схемами, а не только текстовое описание.
Важная оговорка: ввод изображений и видео официально поддержан в API Moonshot, но не у всех хостинг-провайдеров он выведен наружу. Например, в DeepInfra картинки на вход через API недоступны — зрение используется моделью внутренне. Если мультимодальность нужна именно через API, проверяйте конкретного провайдера.
У модели два режима:
- Instant — быстрый ответ без длинной цепочки рассуждений. Подходит для чата, простых правок кода, генерации текста.
- Thinking — пошаговое рассуждение с вызовом инструментов (interleaved thinking + multi-step tool call). Модель чередует размышление и вызовы функций, выдерживая сотни последовательных шагов без потери нити. Подходит для исследований, сложного дебага, многошаговых процедур.
Thinking-режим заметно повышает качество на сложных задачах, но генерирует значительно больше токенов, чем instant. На длинных сессиях это влияет и на стоимость, и на скорость — выбирайте режим под задачу.
Agent Swarm — рой агентов
Главное нововведение K2.6. Agent Swarm разбивает задачу на разнородные подзадачи и запускает их параллельно силами специализированных суб-агентов, которые модель создаёт сама под конкретную работу.
- Масштаб — до 300 суб-агентов и 4 000 скоординированных шагов в одном прогоне. Для сравнения, у K2.5 было 100 агентов и 1 500 шагов.
- Композиция навыков — в одном автономном прогоне рой совмещает широкий поиск, глубокий ресёрч, анализ больших документов и длинные тексты.
- Готовые артефакты — на выходе не сырой ответ, а целые документы, сайты, слайды и таблицы.
Практический смысл: задачи, которые раньше распадались на десяток отдельных запросов, теперь укладываются в один автономный прогон. Это и есть тезис Moonshot «один человек делает то, что раньше требовало команды».
Когда использовать
Таблица «ситуация → подходит / не подходит»:
| Ситуация | Подходит? | Почему |
|---|---|---|
| Long-horizon агентная задача (часы автономной работы) | Да | Специально обучена на длинных цепочках с инструментами. |
| Сложный многошаговый кодинг | Да | SWE-Bench Verified ~72, на уровне топовых закрытых моделей. |
| Приватные данные без облака | Да | Открытые веса, можно развернуть в периметре. |
| Роевая оркестрация (параллельные суб-агенты) | Да | Agent Swarm до 300 агентов и 4 000 шагов в одном прогоне. |
| Простой чат / короткие правки | Нет | Избыточно: возьмите instant-режим более лёгкой модели или облачную GPT-class. |
| Системный кодинг (ядра, низкоуровневые оптимизации) | Нет | Слабее закрытых моделей на редких языках и системных задачах. |
Пример
Базовый локальный запуск через Ollama:
ollama pull kimi-k2.6
ollama run kimi-k2.6
Главное, что нужно понимать про локальный запуск: это модель на 1 трлн параметров. Даже в INT4 её веса занимают ~550–600 GB, поэтому в один Mac Studio (даже на 256 GB) она не помещается. Реалистичный сценарий — кластер из нескольких Mac Studio M3 Ultra (суммарно 512 GB+ unified memory) с распределённым инференсом (MLX distributed, Exo и т. п.), либо более агрессивная квантизация с выгрузкой и потерей скорости. Один компьютер потребительского класса для полноценного запуска не подходит.
Облачный API Moonshot — OpenAI-совместимый endpoint. Достаточно поменять base_url и ключ, и SDK OpenAI работает с Kimi без изменений.
Цены
- Официальный API Moonshot — $0.60 за 1M входных токенов и $2.50 за 1M выходных. Примерно в 8 раз дешевле по входу и в 10 раз по выходу, чем у Claude Opus того же класса.
- Сторонние провайдеры (Together, Fireworks, OpenRouter, DeepInfra) — Artificial Analysis отслеживает K2.6 у девяти провайдеров, blended-цена гуляет в диапазоне $1.15–$2.15 за 1M токенов, при этом сильно различаются скорость и задержки.
Для России оплата зарубежного API упирается в платёжку. Если нужен счёт в рублях — смотрите на агрегаторы вроде OpenRouter либо на локальный запуск через Ollama.
Бенчмарки
Собственные замеры Moonshot (Kimi в thinking-режиме), а не независимый аудит — относитесь к ним как к заявлениям вендора. Цифры — проценты, выше лучше.
| Бенчмарк | Что проверяет | Kimi K2.6 |
|---|---|---|
| HLE (with tools) | Экспертные знания + инструменты | 54.0 |
| SWE-Bench Verified | Реальные баг-фиксы (Python) | ~72 |
| SWE-Bench Pro | Сложные инженерные задачи | 58.6 |
| SWE-Bench Multilingual | Код на разных языках | 76.7 |
| BrowseComp | Агентный веб-поиск | 83.2 |
| Toolathlon | Вызов инструментов | 50.0 |
Как читать. Прямого сравнения с закрытыми моделями в одной таблице мы сознательно не приводим: публично проверяемых цифр по GPT- и Claude-линейкам под те же условия нет. Качественно картина такая: на кодинге K2.6 в одной лиге с топовыми закрытыми моделями, а на части агентных задач (например, BrowseComp) заметно впереди — при кратно меньшей цене. Независимые тестировщики оценивают, что она закрывает ~80–85% задач уровня Claude Opus 4.7 при цене порядка 5–12% от него.
Ограничения
| Ограничение | Пояснение |
|---|---|
| Локальный запуск тяжёлый | 1 трлн параметров и MoE-архитектура требуют серверной инфраструктуры, а не обычного ноутбука. |
| Мультимодальность зависит от провайдера | DeepInfra и некоторые API дают vision-возможности, но не все маршруты поддерживают изображения одинаково. |
| Thinking-режим дорогой — Для простого чата он часто избыточен: | больше токенов, выше задержка и стоимость. |
| Бенчмарки не независимые | Часть результатов заявлена в релизах Moonshot AI, поэтому для важных решений нужна своя проверка. |
| Системный кодинг слабее | В задачах системного программирования модель может уступать Claude Sonnet 4.5. |
| Провайдеры различаются | OpenRouter, DeepInfra и Groq отличаются ценой, лимитами, задержкой и поддерживаемыми возможностями. |
| Лицензию нужно проверять | При коммерческом использовании важно отдельно проверить актуальные условия Moonshot AI и выбранного провайдера. |
Антипаттерны
| Антипаттерн | Почему опасно |
|---|---|
| Полная модель на ноутбуке | Не пытаться запускать K2.6 локально без достаточного GPU-кластера или специализированного провайдера. |
| Thinking для всего | Не включать reasoning-режим для простого чата, FAQ и коротких ответов. |
| Мультимодальность без проверки | Не рассчитывать на работу с изображениями, пока конкретный API-маршрут не проверен руками. |
| Сложная модель для простых задач | Не брать K2.6 там, где достаточно дешёвой маленькой модели или обычного RAG-поиска. |
Чеклист
| Проверка | Что сделать |
|---|---|
| Long-horizon задача — Убедиться, что нужен именно агентный режим: | браузер, терминал, многошаговый код или исследование. |
| Режим модели | Instant — для быстрых ответов, Thinking — для сложного планирования и рассуждений. |
| Локальный запуск | Проверить инфраструктуру или выбрать облачного провайдера вместо самостоятельного хостинга. |
| Мультимодальность | Выбрать провайдера, где vision реально доступен и стабильно работает. |
| Цена и провайдер | Сравнить OpenRouter, DeepInfra, Groq и лимиты под конкретный объём запросов. |
| Лицензия | Проверить условия Moonshot AI и правила коммерческого использования. |