Открытая модель с миллионным контекстом и лицензией MIT — это уже не про «ещё одну китайскую модель». Это про то, что суверенный запуск большой модели перестаёт быть квестом на полгода. Z.ai выложила GLM-5.2 в июне 2026-го: 1M токенов контекста, скачок в кодинге и полностью открытые веса.
Я начал разбираться, что именно изменилось по сравнению с GLM-5.1, какие задачи GLM-5.2 закрывает лучше других открытых моделей и как её подключить — от первого curl-запроса до локального инференса на своём железе.
Что это
GLM-5.2 — флагманская языковая модель от Z.ai (Zhipu AI), выпущенная в июне 2026 года и заточенная под long-horizon задачи: многочасовую работу агента над кодом, исследованиями и рефакторингом. Главное отличие от предшественника — действительно пригодный к работе контекст на 1 000 000 токенов и заметный прирост в кодинге.
Веса опубликованы под лицензией MIT, поэтому модель можно запускать локально без региональных ограничений и встраивать в свои пайплайны. С первого дня GLM-5.2 доступна через API, в более чем 20 агентных средах (Claude Code, OpenCode, ZCode и других) и в чате Z.ai; для тех, кто не хочет работать через консоль, есть GUI-агент ZCode с режимом долгих задач.
Long-horizon задача — работа, которая не укладывается в один-два запроса: агент часами ведёт проект и держит в голове архитектуру, тесты и историю принятых решений.
Зачем нужно
- Аудит и онбординг в большой проект — в контекст помещается весь репозиторий среднего размера вместе с тестами и историей диалога.
- Длинный рефакторинг от и до — модель держит архитектурные ограничения и инженерные стандарты на дистанции.
- Стресс-тест на инженерные стандарты — проверка, что модель соблюдает правила из AGENTS.md / CLAUDE.md через много раундов.
- Воспроизведение исследований — превратить описание метода из статьи в рабочий проект на PyTorch и догнать заявленные метрики.
- Мобильная разработка с отладкой на устройстве — от реализации до проверки через ADB, logcat и скриншоты.
- Суверенный стек — открытые веса под MIT дают независимость от зарубежного облака и региональных ограничений.
Как устроено
Базовые характеристики модели по документации Z.ai:
| Параметр | Значение |
|---|---|
| Позиционирование | Флагманская foundation-модель |
| Контекст | 1M токенов (вариант glm-5.2[1m]) |
| Максимальный вывод | 128K токенов (131 072) |
| Модальности | Текст → текст |
| Режимы рассуждения | High и Max |
| Function calling | Да |
| Streaming | Да |
| Structured output | JSON |
| Контекстный кэш | Да |
| MCP | Да |
| Лицензия | MIT (открытые веса) |
Архитектурно GLM-5.2 — большая MoE-модель. Точное число параметров Z.ai не раскрывает в публичной документации, но по косвенным признакам сообщества речь идёт о нескольких сотнях миллиардов общих параметров и десятках миллиардов активных на токен — то есть это полноценная модель уровня фронтира, а не «компактная 7B».
Архитектура IndexShare и стабильность 1M-контекста
Главный инженерный приём GLM-5.2 — IndexShare: один лёгкий индексатор переиспользуется на каждые 4 слоя разреженного внимания. По данным команды разработки, это снижает вычисления на токен примерно в 2.9 раза при длине контекста 1M. Дополнительно улучшен MTP-слой для speculative decoding: длина принятия токенов выросла до 20%.
Без таких оптимизаций 1M-контекст был бы либо слишком дорогим, либо слишком медленным — IndexShare делает рабочий миллион токенов реальностью, а не маркетинговой цифрой.
Когда использовать
| Ситуация | Подходит | Почему |
|---|---|---|
| Аудит или онбординг в существующий проект | Да | Целый репозиторий помещается в контекст, модель видит архитектуру целиком |
| Длинный многошаговый рефакторинг | Да | Держит инженерные ограничения и не теряет нить на дистанции |
| Генерация исследовательского кода по статье | Да | 1M контекста вмещает описание метода и связанную литературу |
| Воспроизведение бенчмарков и проверка гипотез | Да | Long-horizon задачи с явным прогрессом по шагам |
| Короткий вопрос-ответ или классификация | Нет | Избыточная модель, дороже и медленнее лёгких альтернатив |
| Задачи с изображениями или аудио | Нет | GLM-5.2 работает только с текстом, нужна отдельная мультимодальная модель |
| Локальный запуск на ноутбуке | Нет | Размер модели требует серверного железа даже в 4-битной квантизации |
Пример
Подключение через API максимально простое: эндпоинт совместим с форматом OpenAI Chat Completions, имя модели — glm-5.2.
curl-запрос с reasoning_effort=max
curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <ваш-api-key>" \
-d '{
"model": "glm-5.2",
"messages": [
{"role": "user", "content": "Спроектируй и собери блог на React + Node.js"}
],
"thinking": {"type": "enabled"},
"reasoning_effort": "max",
"max_tokens": 4096,
"temperature": 1.0
}'
Python SDK
# pip install zai-sdk
from zai import ZaiClient
client = ZaiClient(api_key="<ваш-api-key>") # ключ из личного кабинета Z.ai
response = client.chat.completions.create(
model="glm-5.2",
messages=[
{"role": "user", "content": "Спроектируй и собери блог на React + Node.js"},
],
thinking={"type": "enabled"}, # включить режим рассуждения
reasoning_effort="max", # high | max
max_tokens=4096,
temperature=1.0,
)
print(response.choices[0].message)
Чтобы задействовать полный контекст в Claude Code, укажите имя модели glm-5.2[1m] — без суффикса [1m] будет работать стандартное окно.
Уровни reasoning effort
GLM-5.2 даёт явно выбирать, сколько вычислений тратить на задачу:
- High — баланс качества и расхода токенов. Подходит для большинства задач.
- Max — выжимает максимум на сложных многошаговых задачах, но расходует заметно больше токенов. Z.ai рекомендует Max для тяжёлого кодинга и долгих агентных трасс.
В Claude Code режим переключается командой /effort; значения xhigh, max и ultracode соответствуют уровню Max.
Бенчмарки
Сравнение с предшественником и закрытым фронтиром по официальному README модели в HuggingFace:
| Бенчмарк | GLM-5.2 | GLM-5.1 | Claude Opus 4.8 |
|---|---|---|---|
| Terminal-Bench 2.1 | 81.0 | 63.5 | 85.0 |
| SWE-bench Pro | 62.1 | 58.4 | 69.2 |
| FrontierSWE | 74.4 | 30.5 | 75.1 |
| AIME 2026 | 99.2 | 95.3 | 95.7 |
| GPQA-Diamond | 91.2 | 86.2 | 93.6 |
GLM-5.2 — сильнейшая открытая модель в этом сравнении и единственная из открытых, кто переходит отметку 80% на Terminal-Bench 2.1. На длинных инженерных задачах (FrontierSWE) она отстаёт от Claude Opus 4.8 примерно на 1%. На сверхдлинных задачах разрыв с лидером ещё заметен: на SWE-Marathon (сборка компиляторов, оптимизация ядер, продакшн-сервисы) GLM-5.2 отстаёт от Opus 4.8 примерно на 13%, оставаясь при этом лучшей среди открытых моделей.
Тарифы и лимиты
Цены на API по официальной странице pricing Z.ai (оплата по факту использования токенов, отдельно от подписки Coding Plan):
| Тип токенов | Цена за 1M |
|---|---|
| Входные | $1.40 |
| Входные из кэша | $0.26 |
| Выходные | $4.40 |
Цены GLM-5.2 идентичны GLM-5.1 — тариф не менялся при апгрейде модели. Для тех, кто работает через подписку GLM Coding Plan, GLM-5.2 расходует квоту по повышенному тарифу: 3× в пиковые часы и 2× в непиковые. Пик — 14:00–18:00 по пекинскому времени (UTC+8). До конца сентября действует акция: в непиковые часы списание идёт 1×. Стоимость самой подписки — от $18 в месяц.
Локальный запуск
Веса доступны на HuggingFace и ModelScope. Для инференса поддерживаются transformers, vLLM, SGLang, KTransformers, а также Ollama.
Это не модель для ноутбука. GLM-5.2 — большая MoE-модель, и даже в 4-битной квантизации только под веса нужно порядка нескольких сотен гигабайт, плюс место под KV-кэш — особенно на 1M контекста. Для fp8-инференса сообщество ориентируется на конфигурации уровня нескольких GPU H100; под локальный запуск планируйте серверное железо.
Ограничения
Ограничения
Что учитывать
Только текст — GLM-5.2 работает только с текстом.
Для задач с изображениями или аудио понадобится отдельная мультимодальная модель.
Серверное железо для локального запуска
Даже в 4-бит квантизации нужно несколько сотен гигабайт только под веса, плюс большой KV-кэш для 1M-контекста.
Цены уровня фронтира
Входные $1.40 и выходные $4.40 за 1M токенов — это тариф закрытых моделей, не эконом-сегмент.
Квота Coding Plan ограничена
В пиковые часы (14:00–18:00 UTC+8) подписочный тариф расходует квоту 3×, что быстро съедает месячный лимит.
Отставание на сверхдлинных задачах
На SWE-Marathon GLM-5.2 уступает Claude Opus 4.8 примерно 13% — для самых тяжёлых сценариев разрыв всё ещё заметен.
Антипаттерны
Антипаттерны
Чего не делать
Использовать для коротких задач
Для вопрос-ответ или классификаций 1M-контекст и reasoning_effort=max избыточны — проще и дешевле взять лёгкую модель.
Запускать fp8 на одной GPU — Под fp8 инференс GLM-5.2 нужно несколько H100 или аналогичный объём VRAM.
Один ускоритель не справится даже с 4-битной квантизацией.
Ожидать равенства с Opus 4.8 на сверхдлинных трассах — GLM-5.2 догнала Opus 4.8 на FrontierSWE, но на SWE-Marathon всё ещё отстаёт на 13%.
Для самых тяжёлых задач закрытая модель пока выигрывает.
Слепо доверять reasoning_effort=max — Max расходует заметно больше токенов.
По умолчанию стоит начинать с High и поднимать до Max только когда качество High недостаточно.
Игнорировать контекстный кэш
Без кэша повторные обращения к одному и тому же системному промпту и документации будут стоить входной цены каждый раз — кэш снижает её до $0.26 за 1M.
Чеклист
Чеклист
Проверка перед запуском
Задача long-horizon — Подтверждено:
задача реально длинная — многошаговая, требует удержания контекста и истории решений на дистанции.
Бюджет согласован
Посчитан расход токенов по тарифу $1.40 / $4.40 за 1M (или $18/мес за Coding Plan) — деньги под это выделены.
API-ключ получен
Ключ создан в личном кабинете Z.ai и проверен через тестовый curl с минимальным запросом.
Железо для локального запуска
Если запускаете у себя — есть сервер с несколькими GPU уровня H100 (или готовность платить за облачный инференс).
Режим рассуждения выбран осознанно — Для большинства задач — High.
Max включается только под тяжёлый кодинг и долгие агентные трассы.
Версия модели с 1M-контекстом указана
Для полного окна используется glm-5.2[1m], иначе модель работает в стандартном окне.
Внешние источники проверены
Документация Z.ai, README на HuggingFace и страница тарифов прочитаны — параметры, цены и поддерживаемые фреймворки актуальны на момент запуска.
Ссылки
Ссылки
- Документация: GLM-5.2 API reference
- Тарифы: Pricing Z.ai (все модели)
- Веса: zai-org/GLM-5.2 на HuggingFace
- Веса: ZhipuAI/GLM-5.2 на ModelScope
- Код: Репозиторий zai-org/GLM-5 на GitHub
- Подписка: GLM Coding Plan
- Чат: chat.z.ai
- Блог: GLM-5.2 release notes