Открытая модель с миллионным контекстом и лицензией MIT — это уже не про «ещё одну китайскую модель». Это про то, что суверенный запуск большой модели перестаёт быть квестом на полгода. Z.ai выложила GLM-5.2 в июне 2026-го: 1M токенов контекста, скачок в кодинге и полностью открытые веса.

Я начал разбираться, что именно изменилось по сравнению с GLM-5.1, какие задачи GLM-5.2 закрывает лучше других открытых моделей и как её подключить — от первого curl-запроса до локального инференса на своём железе.

Что это

GLM-5.2 — флагманская языковая модель от Z.ai (Zhipu AI), выпущенная в июне 2026 года и заточенная под long-horizon задачи: многочасовую работу агента над кодом, исследованиями и рефакторингом. Главное отличие от предшественника — действительно пригодный к работе контекст на 1 000 000 токенов и заметный прирост в кодинге.

Веса опубликованы под лицензией MIT, поэтому модель можно запускать локально без региональных ограничений и встраивать в свои пайплайны. С первого дня GLM-5.2 доступна через API, в более чем 20 агентных средах (Claude Code, OpenCode, ZCode и других) и в чате Z.ai; для тех, кто не хочет работать через консоль, есть GUI-агент ZCode с режимом долгих задач.

Long-horizon задача — работа, которая не укладывается в один-два запроса: агент часами ведёт проект и держит в голове архитектуру, тесты и историю принятых решений.

Зачем нужно

  • Аудит и онбординг в большой проект — в контекст помещается весь репозиторий среднего размера вместе с тестами и историей диалога.
  • Длинный рефакторинг от и до — модель держит архитектурные ограничения и инженерные стандарты на дистанции.
  • Стресс-тест на инженерные стандарты — проверка, что модель соблюдает правила из AGENTS.md / CLAUDE.md через много раундов.
  • Воспроизведение исследований — превратить описание метода из статьи в рабочий проект на PyTorch и догнать заявленные метрики.
  • Мобильная разработка с отладкой на устройстве — от реализации до проверки через ADB, logcat и скриншоты.
  • Суверенный стек — открытые веса под MIT дают независимость от зарубежного облака и региональных ограничений.

Как устроено

Базовые характеристики модели по документации Z.ai:

ПараметрЗначение
ПозиционированиеФлагманская foundation-модель
Контекст1M токенов (вариант glm-5.2[1m])
Максимальный вывод128K токенов (131 072)
МодальностиТекст → текст
Режимы рассужденияHigh и Max
Function callingДа
StreamingДа
Structured outputJSON
Контекстный кэшДа
MCPДа
ЛицензияMIT (открытые веса)

Архитектурно GLM-5.2 — большая MoE-модель. Точное число параметров Z.ai не раскрывает в публичной документации, но по косвенным признакам сообщества речь идёт о нескольких сотнях миллиардов общих параметров и десятках миллиардов активных на токен — то есть это полноценная модель уровня фронтира, а не «компактная 7B».

Архитектура IndexShare и стабильность 1M-контекста

Главный инженерный приём GLM-5.2 — IndexShare: один лёгкий индексатор переиспользуется на каждые 4 слоя разреженного внимания. По данным команды разработки, это снижает вычисления на токен примерно в 2.9 раза при длине контекста 1M. Дополнительно улучшен MTP-слой для speculative decoding: длина принятия токенов выросла до 20%.

Без таких оптимизаций 1M-контекст был бы либо слишком дорогим, либо слишком медленным — IndexShare делает рабочий миллион токенов реальностью, а не маркетинговой цифрой.

Когда использовать

СитуацияПодходитПочему
Аудит или онбординг в существующий проектДаЦелый репозиторий помещается в контекст, модель видит архитектуру целиком
Длинный многошаговый рефакторингДаДержит инженерные ограничения и не теряет нить на дистанции
Генерация исследовательского кода по статьеДа1M контекста вмещает описание метода и связанную литературу
Воспроизведение бенчмарков и проверка гипотезДаLong-horizon задачи с явным прогрессом по шагам
Короткий вопрос-ответ или классификацияНетИзбыточная модель, дороже и медленнее лёгких альтернатив
Задачи с изображениями или аудиоНетGLM-5.2 работает только с текстом, нужна отдельная мультимодальная модель
Локальный запуск на ноутбукеНетРазмер модели требует серверного железа даже в 4-битной квантизации

Пример

Подключение через API максимально простое: эндпоинт совместим с форматом OpenAI Chat Completions, имя модели — glm-5.2.

curl-запрос с reasoning_effort=max

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <ваш-api-key>" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "max",
    "max_tokens": 4096,
    "temperature": 1.0
  }'

Python SDK

# pip install zai-sdk
from zai import ZaiClient

client = ZaiClient(api_key="<ваш-api-key>")  # ключ из личного кабинета Z.ai

response = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"},
    ],
    thinking={"type": "enabled"},  # включить режим рассуждения
    reasoning_effort="max",         # high | max
    max_tokens=4096,
    temperature=1.0,
)

print(response.choices[0].message)

Чтобы задействовать полный контекст в Claude Code, укажите имя модели glm-5.2[1m] — без суффикса [1m] будет работать стандартное окно.

Уровни reasoning effort

GLM-5.2 даёт явно выбирать, сколько вычислений тратить на задачу:

  • High — баланс качества и расхода токенов. Подходит для большинства задач.
  • Max — выжимает максимум на сложных многошаговых задачах, но расходует заметно больше токенов. Z.ai рекомендует Max для тяжёлого кодинга и долгих агентных трасс.

В Claude Code режим переключается командой /effort; значения xhigh, max и ultracode соответствуют уровню Max.

Бенчмарки

Сравнение с предшественником и закрытым фронтиром по официальному README модели в HuggingFace:

БенчмаркGLM-5.2GLM-5.1Claude Opus 4.8
Terminal-Bench 2.181.063.585.0
SWE-bench Pro62.158.469.2
FrontierSWE74.430.575.1
AIME 202699.295.395.7
GPQA-Diamond91.286.293.6

GLM-5.2 — сильнейшая открытая модель в этом сравнении и единственная из открытых, кто переходит отметку 80% на Terminal-Bench 2.1. На длинных инженерных задачах (FrontierSWE) она отстаёт от Claude Opus 4.8 примерно на 1%. На сверхдлинных задачах разрыв с лидером ещё заметен: на SWE-Marathon (сборка компиляторов, оптимизация ядер, продакшн-сервисы) GLM-5.2 отстаёт от Opus 4.8 примерно на 13%, оставаясь при этом лучшей среди открытых моделей.

Тарифы и лимиты

Цены на API по официальной странице pricing Z.ai (оплата по факту использования токенов, отдельно от подписки Coding Plan):

Тип токеновЦена за 1M
Входные$1.40
Входные из кэша$0.26
Выходные$4.40

Цены GLM-5.2 идентичны GLM-5.1 — тариф не менялся при апгрейде модели. Для тех, кто работает через подписку GLM Coding Plan, GLM-5.2 расходует квоту по повышенному тарифу: 3× в пиковые часы и 2× в непиковые. Пик — 14:00–18:00 по пекинскому времени (UTC+8). До конца сентября действует акция: в непиковые часы списание идёт 1×. Стоимость самой подписки — от $18 в месяц.

Локальный запуск

Веса доступны на HuggingFace и ModelScope. Для инференса поддерживаются transformers, vLLM, SGLang, KTransformers, а также Ollama.

Это не модель для ноутбука. GLM-5.2 — большая MoE-модель, и даже в 4-битной квантизации только под веса нужно порядка нескольких сотен гигабайт, плюс место под KV-кэш — особенно на 1M контекста. Для fp8-инференса сообщество ориентируется на конфигурации уровня нескольких GPU H100; под локальный запуск планируйте серверное железо.

Ограничения

Ограничения

Что учитывать

Только текст — GLM-5.2 работает только с текстом.

Для задач с изображениями или аудио понадобится отдельная мультимодальная модель.

Серверное железо для локального запуска

Даже в 4-бит квантизации нужно несколько сотен гигабайт только под веса, плюс большой KV-кэш для 1M-контекста.

Цены уровня фронтира

Входные $1.40 и выходные $4.40 за 1M токенов — это тариф закрытых моделей, не эконом-сегмент.

Квота Coding Plan ограничена

В пиковые часы (14:00–18:00 UTC+8) подписочный тариф расходует квоту 3×, что быстро съедает месячный лимит.

Отставание на сверхдлинных задачах

На SWE-Marathon GLM-5.2 уступает Claude Opus 4.8 примерно 13% — для самых тяжёлых сценариев разрыв всё ещё заметен.

Антипаттерны

Антипаттерны

Чего не делать

Использовать для коротких задач

Для вопрос-ответ или классификаций 1M-контекст и reasoning_effort=max избыточны — проще и дешевле взять лёгкую модель.

Запускать fp8 на одной GPU — Под fp8 инференс GLM-5.2 нужно несколько H100 или аналогичный объём VRAM.

Один ускоритель не справится даже с 4-битной квантизацией.

Ожидать равенства с Opus 4.8 на сверхдлинных трассах — GLM-5.2 догнала Opus 4.8 на FrontierSWE, но на SWE-Marathon всё ещё отстаёт на 13%.

Для самых тяжёлых задач закрытая модель пока выигрывает.

Слепо доверять reasoning_effort=max — Max расходует заметно больше токенов.

По умолчанию стоит начинать с High и поднимать до Max только когда качество High недостаточно.

Игнорировать контекстный кэш

Без кэша повторные обращения к одному и тому же системному промпту и документации будут стоить входной цены каждый раз — кэш снижает её до $0.26 за 1M.

Чеклист

Чеклист

Проверка перед запуском

Задача long-horizon — Подтверждено:

задача реально длинная — многошаговая, требует удержания контекста и истории решений на дистанции.

Бюджет согласован

Посчитан расход токенов по тарифу $1.40 / $4.40 за 1M (или $18/мес за Coding Plan) — деньги под это выделены.

API-ключ получен

Ключ создан в личном кабинете Z.ai и проверен через тестовый curl с минимальным запросом.

Железо для локального запуска

Если запускаете у себя — есть сервер с несколькими GPU уровня H100 (или готовность платить за облачный инференс).

Режим рассуждения выбран осознанно — Для большинства задач — High.

Max включается только под тяжёлый кодинг и долгие агентные трассы.

Версия модели с 1M-контекстом указана

Для полного окна используется glm-5.2[1m], иначе модель работает в стандартном окне.

Внешние источники проверены

Документация Z.ai, README на HuggingFace и страница тарифов прочитаны — параметры, цены и поддерживаемые фреймворки актуальны на момент запуска.