DeepSeek — китайский провайдер языковых моделей с открытыми весами и OpenAI-совместимым API. Модели V (chat) и R (reasoning) доступны через собственный эндпоинт, прокси вроде OpenRouter и LiteLLM, а также локально через Ollama. Справочник дополняет основной обзор по линейке моделей и фокусируется на практической интеграции: как подключить, какие эндпоинты использовать, как работать с tool use и режимом рассуждений, сколько это стоит.
Ключевое правило: при миграции с OpenAI на DeepSeek пересмотрите имена моделей. Старые deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. Переведите код на deepseek-v4-flash / deepseek-v4-pro заранее.
Что это
DeepSeek предлагает два семейства моделей через единый API. Линейка V (chat) — модели общего назначения на архитектуре Mixture of Experts. Текущий флагман V4 Flash (284B параметров, 13B активных) и V4 Pro (1.6T / 49B активных). Контекст до 1M токенов. Линейка R (reasoning) — модели с цепочкой рассуждений, аналог OpenAI o1. Начиная с V3.1, рассуждения встроены в основную модель как переключаемый режим.
API полностью совместим с форматом OpenAI ChatCompletions. Можно использовать официальный OpenAI SDK, просто поменяв base_url и ключ. Дополнительно поддерживается формат Anthropic Messages.
Зачем нужно
- Массовая обработка данных. Классификация, суммаризация, дозаполнение тысяч документов. Низкая цена Flash и кеш делают это дешево.
- Математика и рассуждения. Режим рассуждений V4 Pro силён на олимпиадных задачах.
- Кодинг по большим проектам. 1M контекста — в промпт влезают целые репозитории.
- Пирамида моделей в одном SDK. Через LiteLLM или OpenRouter направляете простые задачи на DeepSeek, сложные — на Claude или GPT-4.
- Резервный провайдер для OpenAI. Если основной провайдер недоступен или подорожал — переключение занимает минуты.
Эволюция линейки: от V3 до V4
DeepSeek развивается быстро, и старые гайды устаревают за пару месяцев. Хронология помогает не путаться в именах моделей.
| Модель | Когда | Что важного |
|---|---|---|
| V3 + R1 | дек 2024 – янв 2025 | Открытый фронтир: V3 — общая MoE-модель, R1 — отдельная модель рассуждений на уровне o1. С них началась известность DeepSeek |
| V3.1 | авг 2025 | Гибрид: чат и рассуждения в одной модели. 671B всего / 37B активных, контекст 128K |
| V3.2 / V3.2-Speciale | сен–дек 2025 | Разреженное внимание DSA, рассуждения внутри вызова инструментов. Speciale берёт золото IMO и IOI 2025, идёт вровень с Gemini 3.0 Pro |
| V4-Pro / V4-Flash | апр 2026 | Текущий флагман. Контекст 1M токенов, новое гибридное внимание, открытые веса |
Главный сдвиг последнего года: DeepSeek перестала держать отдельную R-линию для рассуждений. Начиная с V3.1 рассуждения — это режим внутри одной модели, который включается переключателем. Фразы вроде «возьми R2 для математики» из старых статей читайте как «включи режим рассуждений у актуальной модели».
Как устроено
| Модель | Идентификатор | Контекст | Назначение |
|---|---|---|---|
| V4 Flash | deepseek-v4-flash | до 1M | Чат, генерация, код, массовые задачи |
| V4 Pro | deepseek-v4-pro | до 1M | Сложные рассуждения, агенты, кодинг по репозиториям |
| Reasoner (уст.) | deepseek-reasoner | 64K | Указывает на V4 Flash в режиме рассуждений. Выводится 24 июля 2026 |
| Chat (уст.) | deepseek-chat | 64K | Указывает на V4 Flash. Выводится 24 июля 2026 |
Модели V4: Pro и Flash
V4 вышла сразу в двух вариантах под разные задачи — Pro для сложных сценариев, Flash для массовых.
| Параметр | V4-Pro | V4-Flash |
|---|---|---|
| Всего параметров | 1.6T | 284B |
| Активных параметров | 49B | 13B |
| Контекст | до 1M токенов | до 1M токенов |
| Макс. выход | 384K токенов | 384K токенов |
| Для чего | Сложное рассуждение, агенты, большой контекст, кодинг по целым репозиториям | Быстрые и массовые задачи, типовой чат, обработка больших объёмов |
| Имя в API | deepseek-v4-pro | deepseek-v4-flash |
У обеих версий есть два режима: с рассуждениями (в приложении называется Expert Mode) — с видимой цепочкой рассуждений — и быстрый (Instant Mode) для коротких ответов. Раньше под это были разные модели — теперь это переключатель.
Что под капотом V4
Миллион токенов контекста — это не только про объём. Главная проблема длинного контекста в том, что каждый следующий токен платит за внимание ко всему, что было раньше. Для агента, который гоняет длинную цепочку инструментов, это превращается в дорогую и медленную историю. V4 решает это архитектурно.
- MoE с динамическим выбором экспертов. Под каждую задачу активируется лишь часть параметров (49B из 1.6T у Pro), поэтому модель остаётся быстрой при огромном общем размере.
- Гибридное внимание CSA + HCA. Compressed Sparse Attention и Heavily Compressed Attention вместе резко срезают стоимость работы на длинном контексте. На отметке в 1M токенов V4-Pro тратит около 27% FLOPs на токен и 10% KV-кэша по сравнению с V3.2. V4-Flash идёт ещё дальше — примерно 10% FLOPs и 7% KV-кэша.
- Рассуждения при работе с инструментами. Унаследовано от V3.2: модель рассуждает прямо внутри вызова инструментов, что важно для агентных сценариев.
Большой контекст не отменяет здравый смысл. Даже когда весь монорепозиторий влезает в окно, точечный, суженный промпт почти всегда даёт более точный ответ, чем «загрузил всё и спрашиваю». Контекст 1M — это страховка и удобство, а не повод выключать голову.
Чем DeepSeek выделяется
- Открытые веса. Веса моделей выкладываются на Hugging Face. Исторически DeepSeek использует MIT-лицензию — одну из самых либеральных в индустрии: коммерческое использование, дообучение и перевыпуск без роялти. Лицензию конкретной модели всё же проверяйте на её странице — у отдельных релизов условия могут отличаться.
- Миллионный контекст. 1M токенов — это примерно ядро большого монорепозитория или несколько десятков крупных документов в одном запросе. На такой длине V4 держит факты лучше большинства конкурентов за счёт нового механизма внимания.
- Низкая цена API. Официальное облако DeepSeek стоит в разы дешевле аналогов от OpenAI и Anthropic. Это решающий фактор при работе на больших объёмах: классификация, массовое дозаполнение, разметка, суммаризация тысяч документов.
- Прозрачные рассуждения. В режиме рассуждений цепочка доступна в ответе API. Её можно показывать пользователю, логировать для аудита, обрезать ради экономии или использовать для дистилляции собственных моделей.
Когда использовать
| Ситуация | Решение |
|---|---|
| Дешёвая альтернатива GPT-4 для массовых задач | deepseek-v4-flash, $0.14 за 1M input токенов |
| Нужен reasoning с цепочкой рассуждений | deepseek-v4-pro с reasoning_effort: high |
| Анализ большого кодового репозитория | deepseek-v4-pro, 1M контекста |
| Работа через единый SDK с несколькими провайдерами | LiteLLM: model=‘deepseek/deepseek-v4-flash’ |
| Tool use с жёсткой типизацией ответов | tools + response_format: {type: json_object} |
Способы запуска
| Способ | Кому подходит | Особенности |
|---|---|---|
| Официальный API DeepSeek | Быстрый старт, низкая цена, пробы | OpenAI- и Anthropic-совместимые эндпоинты |
| Сторонние провайдеры (Together, Fireworks, OpenRouter, NVIDIA) | Смешанные пирамиды моделей | Единый SDK для разных моделей, выбор региона |
| Ollama (дистилляты R1) | Локальный запуск, приватность | Дистилляты 1.5B–70B на Qwen/Llama, идут на Mac Studio или хорошем GPU |
| vLLM / SGLang на своём железе | Высокая пропускная способность, большие объёмы | Полные веса, нужны несколько H100/H200, дообучение |
| Дообучение (Fireworks, Replicate, своё железо) | Дообучение под свой домен | LoRA или полное дообучение на открытых весах |
Локальный запуск дистиллятов через Ollama:
ollama pull deepseek-r1:32b
ollama run deepseek-r1:32b
Дистилляты впитали «привычки рассуждения» больших моделей, но слабее на действительно сложных задачах. Подходят для локальных «подумать»-сценариев без выхода в интернет. Полноценные веса V4 — это уже кластер из нескольких GPU, на ноутбуке их не поднять.
Сценарии применения
- Обработка больших объёмов данных. Дозаполнение, классификация, суммаризация тысяч документов. Низкая цена Flash и автоматический кэш делают это дёшево.
- Математика и рассуждения. Режим рассуждений V4-Pro и линия V3.2-Speciale сильны на олимпиадных и инженерных задачах, где важна точность рассуждения.
- Кодинг по большим проектам. Благодаря 1M контекста в промпт влезают целые репозитории — удобно для рефакторинга, аудита и обзора всего проекта одним вызовом.
- Агенты с длинными траекториями. Дешёвое внимание на длинном контексте делает V4 хорошим движком для агентов, которые накапливают историю инструментов.
- Корпоративное дообучение. Открытая лицензия позволяет дообучать на внутренних данных и выкатывать модель в боевую среду без юридических оглядок.
Пример
Подключение через OpenAI SDK. Поскольку API совместим с форматом OpenAI, миграция сводится к замене base_url и ключа.
from openai import OpenAI
client = OpenAI(
api_key=*** # ключ от DeepSeek
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "Привет!"}]
)
print(response.choices[0].message.content)
Reasoning-модель возвращает два потока: reasoning_content (внутренние рассуждения, оплачиваются отдельно) и content (финальный ответ). Глубина рассуждений управляется параметром reasoning_effort: high по умолчанию, max — для самых сложных агентных задач.
Важно: алиас deepseek-reasoner указывает на thinking-режим V4 Flash, а не на V4 Pro. Если нужна именно Pro в режиме рассуждений, указывайте deepseek-v4-pro явно.
Тарифы и лимиты (API)
Цены указаны за 1M токенов, по состоянию на июнь 2026, и это фиксированный прайс. Ночные скидки (50–75%), которые DeepSeek давал в 2025 году, отменены ещё 5 сентября 2025-го, а стартовая промоцена на V4-Pro закончилась 5 мая 2026-го. Так что упоминания «скидок по времени суток» из старых статей уже неактуальны — платите ровно по таблице. Контекстное кэширование включено по умолчанию: если запрос совпадает по префиксу с недавним, совпавшая часть берётся из кэша по цене попадания в кэш.
| Модель | Вход (из кэша) | Вход (мимо кэша) | Выход |
|---|---|---|---|
| deepseek-v4-flash | $0.0028 | $0.14 | $0.28 |
| deepseek-v4-pro | $0.003625 | $0.435 | $0.87 |
Для сравнения: V4-Flash дешевле флагманов OpenAI и Anthropic на один–два порядка, а V4-Pro при почти флагманском качестве всё равно заметно дешевле Claude Sonnet. Чат в веб-интерфейсе и приложении бесплатен.
Старые имена моделей deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. До этой даты они временно указывают на быстрый режим и режим рассуждений deepseek-v4-flash соответственно. Если у вас в коде зашиты эти имена — переведите на deepseek-v4-flash / deepseek-v4-pro заранее.
Ограничения
| Ограничение | Пояснение |
|---|---|
| Tool use у DeepSeek работает, но по качеству уступает Claude и GPT-4 | На сложных цепочках инструментов (5+ вызовов подряд) модель может терять контекст. |
| Reasoning-модель стоит дороже и генерирует длинную цепочку перед ответом | Для обычного чата и извлечения фактов режим рассуждений медленнее и дороже без выигрыша в качестве. |
| Официальная документация V4 на момент превью описывает только текстовый ввод. | Приёма изображений через API нет — заявления о мультимодальности V4 часто путают с отдельной линейкой DeepSeek-VL. |
| Ночные скидки 50–75%, которые DeepSeek давал в 2025, отменены с 5 сентября 2025 | Упоминания скидок по времени суток из старых статей неактуальны. |
| Контекстное кеширование включено по умолчанию и снижает стоимость в 50 раз при повторных запросах с одинаковым префиксом | Но кеш работает только для input, output всегда по полной ставке. |
| Русский язык. | Английский и китайский — отлично, русский — на «хорошо», но со своими стилистическими особенностями. Для публичных текстов на русском держите пост-редактуру. |
| Модерация мягче — Фильтры у DeepSeek слабее, чем у OpenAI и Anthropic. | Для публичных сервисов добавляйте свой слой модерации. |
| Хвост рассуждений — В режиме рассуждений цепочка бывает длинной и раздувает вывод в несколько раз. | Используйте обрезку и включайте режим выборочно. |
| Правовой контекст. | Модель выпущена в КНР. Для отдельных юрисдикций и контрактов это ограничение — тогда разворачивайте на своём железе или у провайдера в нужном регионе. |
| Скорость релизов. | DeepSeek часто сдвигает даты и переименовывает модели — старые гайды устаревают за месяцы. |
Антипаттерны
| Антипаттерн | Почему опасно |
|---|---|
| Не делать | оставлять deepseek-chat в production-коде — потому что алиас выводится 24 июля 2026, миграция в последний день ломает всё. |
| Не делать | использовать reasoning-режим для обычного чата — потому что reasoning_content тарифицируется отдельно, и вы платите за размышления, которые модели не нужны. |
| Не делать | зашивать API-ключ в код репозитория — потому что ключ утечёт через git log и блокируется провайдером за минуты. |
| Не делать | мигрировать проект с OpenAI без теста качества — потому что DeepSeek V4 Flash не равен gpt-4o на узких задачах, и экономия уйдёт на переделки. |
| Включать режим рассуждений везде | Для обычного чата, извлечения фактов и RAG он медленнее и дороже без выигрыша в качестве. |
| Грузить весь контекст просто потому что влезает. | Лишние токены — это деньги и расфокус модели. |
| Доверять «бесплатному дообучению» без тестов | Открытая лицензия не заменяет проверку качества. |
| Переходить ради цены без теста | Сначала параллельный прогон на ваших задачах, потом миграция. |
Чеклист
| Проверка | Что сделать |
|---|---|
| Определён сценарий | большой объём данных, математика и рассуждения, миллионный контекст, агенты, дообучение или локальный запуск. |
| Выбрана версия | Flash (быстро и дёшево) или Pro (сложные задачи и большой контекст). |
| Решено, нужен ли режим рассуждений, и продуман объём цепочки рассуждений в выводе | официальный API, сторонний провайдер или своё железо. |
| Проверена лицензия конкретной модели под ваш вариант коммерческого использования | |
| Настроен слой модерации для публичных сервисов | |
| Код переведён с устаревших deepseek-chat / deepseek-reasoner на deepseek-v4-* (дедлайн 24 июля 2026) | |
| Готовы тесты для сравнения с текущей моделью на вашей задаче |