Справочник

GLM-5.2: открытая модель с миллионным контекстом, которая не теряет нить на длинной задаче

Флагман Z.ai с 1M токенов контекста, MIT-лицензией и сильным кодингом: что нового, как подключить, сколько стоит и когда запускать у себя.

29 июня 2026 г. ИИ-модели открытый код ai-агенты API и данные devtools

Открытая модель с миллионным контекстом и лицензией MIT — это уже не про «ещё одну китайскую модель». Это про то, что суверенный запуск большой модели перестаёт быть квестом на полгода. Z.ai выложила GLM-5.2 в июне 2026-го: 1M токенов контекста, скачок в кодинге и полностью открытые веса.

Я начал разбираться, что именно изменилось по сравнению с GLM-5.1, какие задачи GLM-5.2 закрывает лучше других открытых моделей и как её подключить — от первого curl-запроса до локального инференса на своём железе.

Что это

GLM-5.2 — флагманская языковая модель от Z.ai (Zhipu AI), выпущенная в июне 2026 года и заточенная под long-horizon задачи: многочасовую работу агента над кодом, исследованиями и рефакторингом. Главное отличие от предшественника — действительно пригодный к работе контекст на 1 000 000 токенов и заметный прирост в кодинге.

Веса опубликованы под лицензией MIT, поэтому модель можно запускать локально без региональных ограничений и встраивать в свои пайплайны. С первого дня GLM-5.2 доступна через API, в более чем 20 агентных средах (Claude Code, OpenCode, ZCode и других) и в чате Z.ai; для тех, кто не хочет работать через консоль, есть GUI-агент ZCode с режимом долгих задач.

Long-horizon задача — работа, которая не укладывается в один-два запроса: агент часами ведёт проект и держит в голове архитектуру, тесты и историю принятых решений.

Зачем нужно

Аудит и онбординг в большой проект — в контекст помещается весь репозиторий среднего размера вместе с тестами и историей диалога.
Длинный рефакторинг от и до — модель держит архитектурные ограничения и инженерные стандарты на дистанции.
Стресс-тест на инженерные стандарты — проверка, что модель соблюдает правила из AGENTS.md / CLAUDE.md через много раундов.
Воспроизведение исследований — превратить описание метода из статьи в рабочий проект на PyTorch и догнать заявленные метрики.
Мобильная разработка с отладкой на устройстве — от реализации до проверки через ADB, logcat и скриншоты.
Суверенный стек — открытые веса под MIT дают независимость от зарубежного облака и региональных ограничений.

Как устроено

Базовые характеристики модели по документации Z.ai:

Параметр	Значение
Позиционирование	Флагманская foundation-модель
Контекст	1M токенов (вариант glm-5.2[1m])
Максимальный вывод	128K токенов (131 072)
Модальности	Текст → текст
Режимы рассуждения	High и Max
Function calling	Да
Streaming	Да
Structured output	JSON
Контекстный кэш	Да
MCP	Да
Лицензия	MIT (открытые веса)

Архитектурно GLM-5.2 — большая MoE-модель. Точное число параметров Z.ai не раскрывает в публичной документации, но по косвенным признакам сообщества речь идёт о нескольких сотнях миллиардов общих параметров и десятках миллиардов активных на токен — то есть это полноценная модель уровня фронтира, а не «компактная 7B».

Архитектура IndexShare и стабильность 1M-контекста

Главный инженерный приём GLM-5.2 — IndexShare: один лёгкий индексатор переиспользуется на каждые 4 слоя разреженного внимания. По данным команды разработки, это снижает вычисления на токен примерно в 2.9 раза при длине контекста 1M. Дополнительно улучшен MTP-слой для speculative decoding: длина принятия токенов выросла до 20%.

Без таких оптимизаций 1M-контекст был бы либо слишком дорогим, либо слишком медленным — IndexShare делает рабочий миллион токенов реальностью, а не маркетинговой цифрой.

Когда использовать

Ситуация	Подходит	Почему
Аудит или онбординг в существующий проект	Да	Целый репозиторий помещается в контекст, модель видит архитектуру целиком
Длинный многошаговый рефакторинг	Да	Держит инженерные ограничения и не теряет нить на дистанции
Генерация исследовательского кода по статье	Да	1M контекста вмещает описание метода и связанную литературу
Воспроизведение бенчмарков и проверка гипотез	Да	Long-horizon задачи с явным прогрессом по шагам
Короткий вопрос-ответ или классификация	Нет	Избыточная модель, дороже и медленнее лёгких альтернатив
Задачи с изображениями или аудио	Нет	GLM-5.2 работает только с текстом, нужна отдельная мультимодальная модель
Локальный запуск на ноутбуке	Нет	Размер модели требует серверного железа даже в 4-битной квантизации

Пример

Подключение через API максимально простое: эндпоинт совместим с форматом OpenAI Chat Completions, имя модели — glm-5.2.

curl-запрос с reasoning_effort=max

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <ваш-api-key>" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "max",
    "max_tokens": 4096,
    "temperature": 1.0
  }'

Python SDK

# pip install zai-sdk
from zai import ZaiClient

client = ZaiClient(api_key="<ваш-api-key>")  # ключ из личного кабинета Z.ai

response = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"},
    ],
    thinking={"type": "enabled"},  # включить режим рассуждения
    reasoning_effort="max",         # high | max
    max_tokens=4096,
    temperature=1.0,
)

print(response.choices[0].message)

Чтобы задействовать полный контекст в Claude Code, укажите имя модели glm-5.2[1m] — без суффикса [1m] будет работать стандартное окно.

Уровни reasoning effort

GLM-5.2 даёт явно выбирать, сколько вычислений тратить на задачу:

High — баланс качества и расхода токенов. Подходит для большинства задач.
Max — выжимает максимум на сложных многошаговых задачах, но расходует заметно больше токенов. Z.ai рекомендует Max для тяжёлого кодинга и долгих агентных трасс.

В Claude Code режим переключается командой /effort; значения xhigh, max и ultracode соответствуют уровню Max.

Бенчмарки

Сравнение с предшественником и закрытым фронтиром по официальному README модели в HuggingFace:

Бенчмарк	GLM-5.2	GLM-5.1	Claude Opus 4.8
Terminal-Bench 2.1	81.0	63.5	85.0
SWE-bench Pro	62.1	58.4	69.2
FrontierSWE	74.4	30.5	75.1
AIME 2026	99.2	95.3	95.7
GPQA-Diamond	91.2	86.2	93.6

GLM-5.2 — сильнейшая открытая модель в этом сравнении и единственная из открытых, кто переходит отметку 80% на Terminal-Bench 2.1. На длинных инженерных задачах (FrontierSWE) она отстаёт от Claude Opus 4.8 примерно на 1%. На сверхдлинных задачах разрыв с лидером ещё заметен: на SWE-Marathon (сборка компиляторов, оптимизация ядер, продакшн-сервисы) GLM-5.2 отстаёт от Opus 4.8 примерно на 13%, оставаясь при этом лучшей среди открытых моделей.

Тарифы и лимиты

Цены на API по официальной странице pricing Z.ai (оплата по факту использования токенов, отдельно от подписки Coding Plan):

Тип токенов	Цена за 1M
Входные	$1.40
Входные из кэша	$0.26
Выходные	$4.40

Цены GLM-5.2 идентичны GLM-5.1 — тариф не менялся при апгрейде модели. Для тех, кто работает через подписку GLM Coding Plan, GLM-5.2 расходует квоту по повышенному тарифу: 3× в пиковые часы и 2× в непиковые. Пик — 14:00–18:00 по пекинскому времени (UTC+8). До конца сентября действует акция: в непиковые часы списание идёт 1×. Стоимость самой подписки — от $18 в месяц.

Локальный запуск

Веса доступны на HuggingFace и ModelScope. Для инференса поддерживаются transformers, vLLM, SGLang, KTransformers, а также Ollama.

Это не модель для ноутбука. GLM-5.2 — большая MoE-модель, и даже в 4-битной квантизации только под веса нужно порядка нескольких сотен гигабайт, плюс место под KV-кэш — особенно на 1M контекста. Для fp8-инференса сообщество ориентируется на конфигурации уровня нескольких GPU H100; под локальный запуск планируйте серверное железо.

Ограничения

Что учитывать

Только текст — GLM-5.2 работает только с текстом.

Для задач с изображениями или аудио понадобится отдельная мультимодальная модель.

Серверное железо для локального запуска

Даже в 4-бит квантизации нужно несколько сотен гигабайт только под веса, плюс большой KV-кэш для 1M-контекста.

Цены уровня фронтира

Входные $1.40 и выходные $4.40 за 1M токенов — это тариф закрытых моделей, не эконом-сегмент.

Квота Coding Plan ограничена

В пиковые часы (14:00–18:00 UTC+8) подписочный тариф расходует квоту 3×, что быстро съедает месячный лимит.

Отставание на сверхдлинных задачах

На SWE-Marathon GLM-5.2 уступает Claude Opus 4.8 примерно 13% — для самых тяжёлых сценариев разрыв всё ещё заметен.

Антипаттерны

Чего не делать

Использовать для коротких задач

Для вопрос-ответ или классификаций 1M-контекст и reasoning_effort=max избыточны — проще и дешевле взять лёгкую модель.

Запускать fp8 на одной GPU — Под fp8 инференс GLM-5.2 нужно несколько H100 или аналогичный объём VRAM.

Один ускоритель не справится даже с 4-битной квантизацией.

Ожидать равенства с Opus 4.8 на сверхдлинных трассах — GLM-5.2 догнала Opus 4.8 на FrontierSWE, но на SWE-Marathon всё ещё отстаёт на 13%.

Для самых тяжёлых задач закрытая модель пока выигрывает.

Слепо доверять reasoning_effort=max — Max расходует заметно больше токенов.

По умолчанию стоит начинать с High и поднимать до Max только когда качество High недостаточно.

Игнорировать контекстный кэш

Без кэша повторные обращения к одному и тому же системному промпту и документации будут стоить входной цены каждый раз — кэш снижает её до $0.26 за 1M.

Чеклист

Проверка перед запуском

Задача long-horizon — Подтверждено:

задача реально длинная — многошаговая, требует удержания контекста и истории решений на дистанции.

Бюджет согласован

Посчитан расход токенов по тарифу $1.40 / $4.40 за 1M (или $18/мес за Coding Plan) — деньги под это выделены.

API-ключ получен

Ключ создан в личном кабинете Z.ai и проверен через тестовый curl с минимальным запросом.

Железо для локального запуска

Если запускаете у себя — есть сервер с несколькими GPU уровня H100 (или готовность платить за облачный инференс).

Режим рассуждения выбран осознанно — Для большинства задач — High.

Max включается только под тяжёлый кодинг и долгие агентные трассы.

Версия модели с 1M-контекстом указана

Для полного окна используется glm-5.2[1m], иначе модель работает в стандартном окне.

Внешние источники проверены

Документация Z.ai, README на HuggingFace и страница тарифов прочитаны — параметры, цены и поддерживаемые фреймворки актуальны на момент запуска.

Ссылки

Документация: GLM-5.2 API reference
Тарифы: Pricing Z.ai (все модели)
Веса: zai-org/GLM-5.2 на HuggingFace
Веса: ZhipuAI/GLM-5.2 на ModelScope
Код: Репозиторий zai-org/GLM-5 на GitHub
Подписка: GLM Coding Plan
Чат: chat.z.ai
Блог: GLM-5.2 release notes

Продолжить тему

Материалы, которые связаны с этим разбором

Подборка строится по общим тегам, чтобы следующий шаг был связан с текущим контекстом.

Все по теме

База знаний 29 июня 2026 г.

Firecrawl: как скормить ИИ любой сайт без боли с парсингом

От сайта до чистого markdown за один вызов: Scrape, Crawl, Map, Search, Extract и Agent — как Firecrawl берёт на себя рендер JavaScript, обход антибот-защит и AI-фильтрацию шума, чтобы отдавать LLM готовые данные.

#API и данные #ai-агенты #llm #RAG #Автоматизация

База знаний 3 июля 2026 г.

Ollama и LLaVA: локальный визуальный ИИ от CLI до пакетной обработки

Запускаем мультимодальные LLaVA-модели на своём сервере: CLI, Base64, batch, веб-интеграция. Когда локальный визуальный ИИ выгоднее облака и как встроить его в приложение.

#ИИ #Инструменты #devtools #ai-агенты #выбор-моделей

База знаний 1 июля 2026 г.

HTML как рабочий вывод кодинг-агента: когда Markdown уже не справляется

Markdown — формат переписки, HTML — формат документа. Кодинг-агенты умеют генерировать оба, но HTML читают и шарят в разы чаще. Разбираем, когда переключаться и что получаем.

#ИИ #ai-агенты #devtools #openai #кодинг

Виталий Воробьев

Больше практики по ИИ в Telegram

Короткие разборы, промпты и кейсы появляются в канале раньше сайта.

Открыть канал Написать в Telegram