DeepSeek — китайский провайдер языковых моделей с открытыми весами и OpenAI-совместимым API. Модели V (chat) и R (reasoning) доступны через собственный эндпоинт, прокси вроде OpenRouter и LiteLLM, а также локально через Ollama. Справочник дополняет основной обзор по линейке моделей и фокусируется на практической интеграции: как подключить, какие эндпоинты использовать, как работать с tool use и режимом рассуждений, сколько это стоит.

Ключевое правило: при миграции с OpenAI на DeepSeek пересмотрите имена моделей. Старые deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. Переведите код на deepseek-v4-flash / deepseek-v4-pro заранее.

Что это

DeepSeek предлагает два семейства моделей через единый API. Линейка V (chat) — модели общего назначения на архитектуре Mixture of Experts. Текущий флагман V4 Flash (284B параметров, 13B активных) и V4 Pro (1.6T / 49B активных). Контекст до 1M токенов. Линейка R (reasoning) — модели с цепочкой рассуждений, аналог OpenAI o1. Начиная с V3.1, рассуждения встроены в основную модель как переключаемый режим.

API полностью совместим с форматом OpenAI ChatCompletions. Можно использовать официальный OpenAI SDK, просто поменяв base_url и ключ. Дополнительно поддерживается формат Anthropic Messages.

Зачем нужно

  • Массовая обработка данных. Классификация, суммаризация, дозаполнение тысяч документов. Низкая цена Flash и кеш делают это дешево.
  • Математика и рассуждения. Режим рассуждений V4 Pro силён на олимпиадных задачах.
  • Кодинг по большим проектам. 1M контекста — в промпт влезают целые репозитории.
  • Пирамида моделей в одном SDK. Через LiteLLM или OpenRouter направляете простые задачи на DeepSeek, сложные — на Claude или GPT-4.
  • Резервный провайдер для OpenAI. Если основной провайдер недоступен или подорожал — переключение занимает минуты.

Эволюция линейки: от V3 до V4

DeepSeek развивается быстро, и старые гайды устаревают за пару месяцев. Хронология помогает не путаться в именах моделей.

МодельКогдаЧто важного
V3 + R1дек 2024 – янв 2025Открытый фронтир: V3 — общая MoE-модель, R1 — отдельная модель рассуждений на уровне o1. С них началась известность DeepSeek
V3.1авг 2025Гибрид: чат и рассуждения в одной модели. 671B всего / 37B активных, контекст 128K
V3.2 / V3.2-Specialeсен–дек 2025Разреженное внимание DSA, рассуждения внутри вызова инструментов. Speciale берёт золото IMO и IOI 2025, идёт вровень с Gemini 3.0 Pro
V4-Pro / V4-Flashапр 2026Текущий флагман. Контекст 1M токенов, новое гибридное внимание, открытые веса

Главный сдвиг последнего года: DeepSeek перестала держать отдельную R-линию для рассуждений. Начиная с V3.1 рассуждения — это режим внутри одной модели, который включается переключателем. Фразы вроде «возьми R2 для математики» из старых статей читайте как «включи режим рассуждений у актуальной модели».

Как устроено

МодельИдентификаторКонтекстНазначение
V4 Flashdeepseek-v4-flashдо 1MЧат, генерация, код, массовые задачи
V4 Prodeepseek-v4-proдо 1MСложные рассуждения, агенты, кодинг по репозиториям
Reasoner (уст.)deepseek-reasoner64KУказывает на V4 Flash в режиме рассуждений. Выводится 24 июля 2026
Chat (уст.)deepseek-chat64KУказывает на V4 Flash. Выводится 24 июля 2026

Модели V4: Pro и Flash

V4 вышла сразу в двух вариантах под разные задачи — Pro для сложных сценариев, Flash для массовых.

ПараметрV4-ProV4-Flash
Всего параметров1.6T284B
Активных параметров49B13B
Контекстдо 1M токеновдо 1M токенов
Макс. выход384K токенов384K токенов
Для чегоСложное рассуждение, агенты, большой контекст, кодинг по целым репозиториямБыстрые и массовые задачи, типовой чат, обработка больших объёмов
Имя в APIdeepseek-v4-prodeepseek-v4-flash

У обеих версий есть два режима: с рассуждениями (в приложении называется Expert Mode) — с видимой цепочкой рассуждений — и быстрый (Instant Mode) для коротких ответов. Раньше под это были разные модели — теперь это переключатель.

Что под капотом V4

Миллион токенов контекста — это не только про объём. Главная проблема длинного контекста в том, что каждый следующий токен платит за внимание ко всему, что было раньше. Для агента, который гоняет длинную цепочку инструментов, это превращается в дорогую и медленную историю. V4 решает это архитектурно.

  • MoE с динамическим выбором экспертов. Под каждую задачу активируется лишь часть параметров (49B из 1.6T у Pro), поэтому модель остаётся быстрой при огромном общем размере.
  • Гибридное внимание CSA + HCA. Compressed Sparse Attention и Heavily Compressed Attention вместе резко срезают стоимость работы на длинном контексте. На отметке в 1M токенов V4-Pro тратит около 27% FLOPs на токен и 10% KV-кэша по сравнению с V3.2. V4-Flash идёт ещё дальше — примерно 10% FLOPs и 7% KV-кэша.
  • Рассуждения при работе с инструментами. Унаследовано от V3.2: модель рассуждает прямо внутри вызова инструментов, что важно для агентных сценариев.

Большой контекст не отменяет здравый смысл. Даже когда весь монорепозиторий влезает в окно, точечный, суженный промпт почти всегда даёт более точный ответ, чем «загрузил всё и спрашиваю». Контекст 1M — это страховка и удобство, а не повод выключать голову.

Чем DeepSeek выделяется

  • Открытые веса. Веса моделей выкладываются на Hugging Face. Исторически DeepSeek использует MIT-лицензию — одну из самых либеральных в индустрии: коммерческое использование, дообучение и перевыпуск без роялти. Лицензию конкретной модели всё же проверяйте на её странице — у отдельных релизов условия могут отличаться.
  • Миллионный контекст. 1M токенов — это примерно ядро большого монорепозитория или несколько десятков крупных документов в одном запросе. На такой длине V4 держит факты лучше большинства конкурентов за счёт нового механизма внимания.
  • Низкая цена API. Официальное облако DeepSeek стоит в разы дешевле аналогов от OpenAI и Anthropic. Это решающий фактор при работе на больших объёмах: классификация, массовое дозаполнение, разметка, суммаризация тысяч документов.
  • Прозрачные рассуждения. В режиме рассуждений цепочка доступна в ответе API. Её можно показывать пользователю, логировать для аудита, обрезать ради экономии или использовать для дистилляции собственных моделей.

Когда использовать

СитуацияРешение
Дешёвая альтернатива GPT-4 для массовых задачdeepseek-v4-flash, $0.14 за 1M input токенов
Нужен reasoning с цепочкой рассужденийdeepseek-v4-pro с reasoning_effort: high
Анализ большого кодового репозиторияdeepseek-v4-pro, 1M контекста
Работа через единый SDK с несколькими провайдерамиLiteLLM: model=‘deepseek/deepseek-v4-flash’
Tool use с жёсткой типизацией ответовtools + response_format: {type: json_object}

Способы запуска

СпособКому подходитОсобенности
Официальный API DeepSeekБыстрый старт, низкая цена, пробыOpenAI- и Anthropic-совместимые эндпоинты
Сторонние провайдеры (Together, Fireworks, OpenRouter, NVIDIA)Смешанные пирамиды моделейЕдиный SDK для разных моделей, выбор региона
Ollama (дистилляты R1)Локальный запуск, приватностьДистилляты 1.5B–70B на Qwen/Llama, идут на Mac Studio или хорошем GPU
vLLM / SGLang на своём железеВысокая пропускная способность, большие объёмыПолные веса, нужны несколько H100/H200, дообучение
Дообучение (Fireworks, Replicate, своё железо)Дообучение под свой доменLoRA или полное дообучение на открытых весах

Локальный запуск дистиллятов через Ollama:

ollama pull deepseek-r1:32b
ollama run deepseek-r1:32b

Дистилляты впитали «привычки рассуждения» больших моделей, но слабее на действительно сложных задачах. Подходят для локальных «подумать»-сценариев без выхода в интернет. Полноценные веса V4 — это уже кластер из нескольких GPU, на ноутбуке их не поднять.

Сценарии применения

  • Обработка больших объёмов данных. Дозаполнение, классификация, суммаризация тысяч документов. Низкая цена Flash и автоматический кэш делают это дёшево.
  • Математика и рассуждения. Режим рассуждений V4-Pro и линия V3.2-Speciale сильны на олимпиадных и инженерных задачах, где важна точность рассуждения.
  • Кодинг по большим проектам. Благодаря 1M контекста в промпт влезают целые репозитории — удобно для рефакторинга, аудита и обзора всего проекта одним вызовом.
  • Агенты с длинными траекториями. Дешёвое внимание на длинном контексте делает V4 хорошим движком для агентов, которые накапливают историю инструментов.
  • Корпоративное дообучение. Открытая лицензия позволяет дообучать на внутренних данных и выкатывать модель в боевую среду без юридических оглядок.

Пример

Подключение через OpenAI SDK. Поскольку API совместим с форматом OpenAI, миграция сводится к замене base_url и ключа.

from openai import OpenAI

client = OpenAI(
    api_key=*** # ключ от DeepSeek
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Привет!"}]
)

print(response.choices[0].message.content)

Reasoning-модель возвращает два потока: reasoning_content (внутренние рассуждения, оплачиваются отдельно) и content (финальный ответ). Глубина рассуждений управляется параметром reasoning_effort: high по умолчанию, max — для самых сложных агентных задач.

Важно: алиас deepseek-reasoner указывает на thinking-режим V4 Flash, а не на V4 Pro. Если нужна именно Pro в режиме рассуждений, указывайте deepseek-v4-pro явно.

Тарифы и лимиты (API)

Цены указаны за 1M токенов, по состоянию на июнь 2026, и это фиксированный прайс. Ночные скидки (50–75%), которые DeepSeek давал в 2025 году, отменены ещё 5 сентября 2025-го, а стартовая промоцена на V4-Pro закончилась 5 мая 2026-го. Так что упоминания «скидок по времени суток» из старых статей уже неактуальны — платите ровно по таблице. Контекстное кэширование включено по умолчанию: если запрос совпадает по префиксу с недавним, совпавшая часть берётся из кэша по цене попадания в кэш.

МодельВход (из кэша)Вход (мимо кэша)Выход
deepseek-v4-flash$0.0028$0.14$0.28
deepseek-v4-pro$0.003625$0.435$0.87

Для сравнения: V4-Flash дешевле флагманов OpenAI и Anthropic на один–два порядка, а V4-Pro при почти флагманском качестве всё равно заметно дешевле Claude Sonnet. Чат в веб-интерфейсе и приложении бесплатен.

Старые имена моделей deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. До этой даты они временно указывают на быстрый режим и режим рассуждений deepseek-v4-flash соответственно. Если у вас в коде зашиты эти имена — переведите на deepseek-v4-flash / deepseek-v4-pro заранее.

Ограничения

ОграничениеПояснение
Tool use у DeepSeek работает, но по качеству уступает Claude и GPT-4На сложных цепочках инструментов (5+ вызовов подряд) модель может терять контекст.
Reasoning-модель стоит дороже и генерирует длинную цепочку перед ответомДля обычного чата и извлечения фактов режим рассуждений медленнее и дороже без выигрыша в качестве.
Официальная документация V4 на момент превью описывает только текстовый ввод.Приёма изображений через API нет — заявления о мультимодальности V4 часто путают с отдельной линейкой DeepSeek-VL.
Ночные скидки 50–75%, которые DeepSeek давал в 2025, отменены с 5 сентября 2025Упоминания скидок по времени суток из старых статей неактуальны.
Контекстное кеширование включено по умолчанию и снижает стоимость в 50 раз при повторных запросах с одинаковым префиксомНо кеш работает только для input, output всегда по полной ставке.
Русский язык.Английский и китайский — отлично, русский — на «хорошо», но со своими стилистическими особенностями. Для публичных текстов на русском держите пост-редактуру.
Модерация мягче — Фильтры у DeepSeek слабее, чем у OpenAI и Anthropic.Для публичных сервисов добавляйте свой слой модерации.
Хвост рассуждений — В режиме рассуждений цепочка бывает длинной и раздувает вывод в несколько раз.Используйте обрезку и включайте режим выборочно.
Правовой контекст.Модель выпущена в КНР. Для отдельных юрисдикций и контрактов это ограничение — тогда разворачивайте на своём железе или у провайдера в нужном регионе.
Скорость релизов.DeepSeek часто сдвигает даты и переименовывает модели — старые гайды устаревают за месяцы.

Антипаттерны

АнтипаттернПочему опасно
Не делатьоставлять deepseek-chat в production-коде — потому что алиас выводится 24 июля 2026, миграция в последний день ломает всё.
Не делатьиспользовать reasoning-режим для обычного чата — потому что reasoning_content тарифицируется отдельно, и вы платите за размышления, которые модели не нужны.
Не делатьзашивать API-ключ в код репозитория — потому что ключ утечёт через git log и блокируется провайдером за минуты.
Не делатьмигрировать проект с OpenAI без теста качества — потому что DeepSeek V4 Flash не равен gpt-4o на узких задачах, и экономия уйдёт на переделки.
Включать режим рассуждений вездеДля обычного чата, извлечения фактов и RAG он медленнее и дороже без выигрыша в качестве.
Грузить весь контекст просто потому что влезает.Лишние токены — это деньги и расфокус модели.
Доверять «бесплатному дообучению» без тестовОткрытая лицензия не заменяет проверку качества.
Переходить ради цены без тестаСначала параллельный прогон на ваших задачах, потом миграция.

Чеклист

ПроверкаЧто сделать
Определён сценарийбольшой объём данных, математика и рассуждения, миллионный контекст, агенты, дообучение или локальный запуск.
Выбрана версияFlash (быстро и дёшево) или Pro (сложные задачи и большой контекст).
Решено, нужен ли режим рассуждений, и продуман объём цепочки рассуждений в выводеофициальный API, сторонний провайдер или своё железо.
Проверена лицензия конкретной модели под ваш вариант коммерческого использования
Настроен слой модерации для публичных сервисов
Код переведён с устаревших deepseek-chat / deepseek-reasoner на deepseek-v4-* (дедлайн 24 июля 2026)
Готовы тесты для сравнения с текущей моделью на вашей задаче