Справочник

DeepSeek API: V4 Flash за $0.14 и 1M контекста — что нужно знать до подключения

OpenAI-совместимый API китайского провайдера с открытыми моделями V4 Flash и V4 Pro на архитектуре MoE. Подключение через OpenAI SDK, LiteLLM, OpenRouter. Цены в десятки раз ниже GPT-4, контекст до 1M токенов. Tool use, structured outputs, reasoning-модель с цепочкой рассуждений.

16 июня 2026 г. api ИИ open-source выбор-моделей ценообразование llm

DeepSeek — китайский провайдер языковых моделей с открытыми весами и OpenAI-совместимым API. Модели V (chat) и R (reasoning) доступны через собственный эндпоинт, прокси вроде OpenRouter и LiteLLM, а также локально через Ollama. Справочник дополняет основной обзор по линейке моделей и фокусируется на практической интеграции: как подключить, какие эндпоинты использовать, как работать с tool use и режимом рассуждений, сколько это стоит.

Ключевое правило: при миграции с OpenAI на DeepSeek пересмотрите имена моделей. Старые deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. Переведите код на deepseek-v4-flash / deepseek-v4-pro заранее.

Что это

DeepSeek предлагает два семейства моделей через единый API. Линейка V (chat) — модели общего назначения на архитектуре Mixture of Experts. Текущий флагман V4 Flash (284B параметров, 13B активных) и V4 Pro (1.6T / 49B активных). Контекст до 1M токенов. Линейка R (reasoning) — модели с цепочкой рассуждений, аналог OpenAI o1. Начиная с V3.1, рассуждения встроены в основную модель как переключаемый режим.

API полностью совместим с форматом OpenAI ChatCompletions. Можно использовать официальный OpenAI SDK, просто поменяв base_url и ключ. Дополнительно поддерживается формат Anthropic Messages.

Зачем нужно

Массовая обработка данных. Классификация, суммаризация, дозаполнение тысяч документов. Низкая цена Flash и кеш делают это дешево.
Математика и рассуждения. Режим рассуждений V4 Pro силён на олимпиадных задачах.
Кодинг по большим проектам. 1M контекста — в промпт влезают целые репозитории.
Пирамида моделей в одном SDK. Через LiteLLM или OpenRouter направляете простые задачи на DeepSeek, сложные — на Claude или GPT-4.
Резервный провайдер для OpenAI. Если основной провайдер недоступен или подорожал — переключение занимает минуты.

Эволюция линейки: от V3 до V4

DeepSeek развивается быстро, и старые гайды устаревают за пару месяцев. Хронология помогает не путаться в именах моделей.

Модель	Когда	Что важного
V3 + R1	дек 2024 – янв 2025	Открытый фронтир: V3 — общая MoE-модель, R1 — отдельная модель рассуждений на уровне o1. С них началась известность DeepSeek
V3.1	авг 2025	Гибрид: чат и рассуждения в одной модели. 671B всего / 37B активных, контекст 128K
V3.2 / V3.2-Speciale	сен–дек 2025	Разреженное внимание DSA, рассуждения внутри вызова инструментов. Speciale берёт золото IMO и IOI 2025, идёт вровень с Gemini 3.0 Pro
V4-Pro / V4-Flash	апр 2026	Текущий флагман. Контекст 1M токенов, новое гибридное внимание, открытые веса

Главный сдвиг последнего года: DeepSeek перестала держать отдельную R-линию для рассуждений. Начиная с V3.1 рассуждения — это режим внутри одной модели, который включается переключателем. Фразы вроде «возьми R2 для математики» из старых статей читайте как «включи режим рассуждений у актуальной модели».

Как устроено

Модель	Идентификатор	Контекст	Назначение
V4 Flash	deepseek-v4-flash	до 1M	Чат, генерация, код, массовые задачи
V4 Pro	deepseek-v4-pro	до 1M	Сложные рассуждения, агенты, кодинг по репозиториям
Reasoner (уст.)	deepseek-reasoner	64K	Указывает на V4 Flash в режиме рассуждений. Выводится 24 июля 2026
Chat (уст.)	deepseek-chat	64K	Указывает на V4 Flash. Выводится 24 июля 2026

Модели V4: Pro и Flash

V4 вышла сразу в двух вариантах под разные задачи — Pro для сложных сценариев, Flash для массовых.

Параметр	V4-Pro	V4-Flash
Всего параметров	1.6T	284B
Активных параметров	49B	13B
Контекст	до 1M токенов	до 1M токенов
Макс. выход	384K токенов	384K токенов
Для чего	Сложное рассуждение, агенты, большой контекст, кодинг по целым репозиториям	Быстрые и массовые задачи, типовой чат, обработка больших объёмов
Имя в API	deepseek-v4-pro	deepseek-v4-flash

У обеих версий есть два режима: с рассуждениями (в приложении называется Expert Mode) — с видимой цепочкой рассуждений — и быстрый (Instant Mode) для коротких ответов. Раньше под это были разные модели — теперь это переключатель.

Что под капотом V4

Миллион токенов контекста — это не только про объём. Главная проблема длинного контекста в том, что каждый следующий токен платит за внимание ко всему, что было раньше. Для агента, который гоняет длинную цепочку инструментов, это превращается в дорогую и медленную историю. V4 решает это архитектурно.

MoE с динамическим выбором экспертов. Под каждую задачу активируется лишь часть параметров (49B из 1.6T у Pro), поэтому модель остаётся быстрой при огромном общем размере.
Гибридное внимание CSA + HCA. Compressed Sparse Attention и Heavily Compressed Attention вместе резко срезают стоимость работы на длинном контексте. На отметке в 1M токенов V4-Pro тратит около 27% FLOPs на токен и 10% KV-кэша по сравнению с V3.2. V4-Flash идёт ещё дальше — примерно 10% FLOPs и 7% KV-кэша.
Рассуждения при работе с инструментами. Унаследовано от V3.2: модель рассуждает прямо внутри вызова инструментов, что важно для агентных сценариев.

Большой контекст не отменяет здравый смысл. Даже когда весь монорепозиторий влезает в окно, точечный, суженный промпт почти всегда даёт более точный ответ, чем «загрузил всё и спрашиваю». Контекст 1M — это страховка и удобство, а не повод выключать голову.

Чем DeepSeek выделяется

Открытые веса. Веса моделей выкладываются на Hugging Face. Исторически DeepSeek использует MIT-лицензию — одну из самых либеральных в индустрии: коммерческое использование, дообучение и перевыпуск без роялти. Лицензию конкретной модели всё же проверяйте на её странице — у отдельных релизов условия могут отличаться.
Миллионный контекст. 1M токенов — это примерно ядро большого монорепозитория или несколько десятков крупных документов в одном запросе. На такой длине V4 держит факты лучше большинства конкурентов за счёт нового механизма внимания.
Низкая цена API. Официальное облако DeepSeek стоит в разы дешевле аналогов от OpenAI и Anthropic. Это решающий фактор при работе на больших объёмах: классификация, массовое дозаполнение, разметка, суммаризация тысяч документов.
Прозрачные рассуждения. В режиме рассуждений цепочка доступна в ответе API. Её можно показывать пользователю, логировать для аудита, обрезать ради экономии или использовать для дистилляции собственных моделей.

Когда использовать

Ситуация	Решение
Дешёвая альтернатива GPT-4 для массовых задач	deepseek-v4-flash, $0.14 за 1M input токенов
Нужен reasoning с цепочкой рассуждений	deepseek-v4-pro с reasoning_effort: high
Анализ большого кодового репозитория	deepseek-v4-pro, 1M контекста
Работа через единый SDK с несколькими провайдерами	LiteLLM: model=‘deepseek/deepseek-v4-flash’
Tool use с жёсткой типизацией ответов	tools + response_format: {type: json_object}

Способы запуска

Способ	Кому подходит	Особенности
Официальный API DeepSeek	Быстрый старт, низкая цена, пробы	OpenAI- и Anthropic-совместимые эндпоинты
Сторонние провайдеры (Together, Fireworks, OpenRouter, NVIDIA)	Смешанные пирамиды моделей	Единый SDK для разных моделей, выбор региона
Ollama (дистилляты R1)	Локальный запуск, приватность	Дистилляты 1.5B–70B на Qwen/Llama, идут на Mac Studio или хорошем GPU
vLLM / SGLang на своём железе	Высокая пропускная способность, большие объёмы	Полные веса, нужны несколько H100/H200, дообучение
Дообучение (Fireworks, Replicate, своё железо)	Дообучение под свой домен	LoRA или полное дообучение на открытых весах

Локальный запуск дистиллятов через Ollama:

ollama pull deepseek-r1:32b
ollama run deepseek-r1:32b

Дистилляты впитали «привычки рассуждения» больших моделей, но слабее на действительно сложных задачах. Подходят для локальных «подумать»-сценариев без выхода в интернет. Полноценные веса V4 — это уже кластер из нескольких GPU, на ноутбуке их не поднять.

Сценарии применения

Обработка больших объёмов данных. Дозаполнение, классификация, суммаризация тысяч документов. Низкая цена Flash и автоматический кэш делают это дёшево.
Математика и рассуждения. Режим рассуждений V4-Pro и линия V3.2-Speciale сильны на олимпиадных и инженерных задачах, где важна точность рассуждения.
Кодинг по большим проектам. Благодаря 1M контекста в промпт влезают целые репозитории — удобно для рефакторинга, аудита и обзора всего проекта одним вызовом.
Агенты с длинными траекториями. Дешёвое внимание на длинном контексте делает V4 хорошим движком для агентов, которые накапливают историю инструментов.
Корпоративное дообучение. Открытая лицензия позволяет дообучать на внутренних данных и выкатывать модель в боевую среду без юридических оглядок.

Пример

Подключение через OpenAI SDK. Поскольку API совместим с форматом OpenAI, миграция сводится к замене base_url и ключа.

from openai import OpenAI

client = OpenAI(
    api_key=* # ключ от DeepSeek
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Привет!"}]
)

print(response.choices[0].message.content)

Reasoning-модель возвращает два потока: reasoning_content (внутренние рассуждения, оплачиваются отдельно) и content (финальный ответ). Глубина рассуждений управляется параметром reasoning_effort: high по умолчанию, max — для самых сложных агентных задач.

Важно: алиас deepseek-reasoner указывает на thinking-режим V4 Flash, а не на V4 Pro. Если нужна именно Pro в режиме рассуждений, указывайте deepseek-v4-pro явно.

Тарифы и лимиты (API)

Цены указаны за 1M токенов, по состоянию на июнь 2026, и это фиксированный прайс. Ночные скидки (50–75%), которые DeepSeek давал в 2025 году, отменены ещё 5 сентября 2025-го, а стартовая промоцена на V4-Pro закончилась 5 мая 2026-го. Так что упоминания «скидок по времени суток» из старых статей уже неактуальны — платите ровно по таблице. Контекстное кэширование включено по умолчанию: если запрос совпадает по префиксу с недавним, совпавшая часть берётся из кэша по цене попадания в кэш.

Модель	Вход (из кэша)	Вход (мимо кэша)	Выход
deepseek-v4-flash	$0.0028	$0.14	$0.28
deepseek-v4-pro	$0.003625	$0.435	$0.87

Для сравнения: V4-Flash дешевле флагманов OpenAI и Anthropic на один–два порядка, а V4-Pro при почти флагманском качестве всё равно заметно дешевле Claude Sonnet. Чат в веб-интерфейсе и приложении бесплатен.

Старые имена моделей deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. До этой даты они временно указывают на быстрый режим и режим рассуждений deepseek-v4-flash соответственно. Если у вас в коде зашиты эти имена — переведите на deepseek-v4-flash / deepseek-v4-pro заранее.

Особенности и подводные камни

Русский язык. Английский и китайский — отлично, русский — на «хорошо», но со своими стилистическими особенностями. Для публичных текстов на русском держите пост-редактуру.
Модерация мягче. Фильтры у DeepSeek слабее, чем у OpenAI и Anthropic. Для публичных сервисов добавляйте свой слой модерации.
Хвост рассуждений. В режиме рассуждений цепочка бывает длинной и раздувает вывод в несколько раз. Используйте обрезку и включайте режим выборочно.
Правовой контекст. Модель выпущена в КНР. Для отдельных юрисдикций и контрактов это ограничение — тогда разворачивайте на своём железе или у провайдера в нужном регионе.
Скорость релизов. DeepSeek часто сдвигает даты и переименовывает модели — старые гайды устаревают за месяцы.

Ограничения

Что учитывать

Tool use у DeepSeek работает, но по качеству уступает Claude и GPT-4.

На сложных цепочках инструментов (5+ вызовов подряд) модель может терять контекст.

Reasoning-модель стоит дороже и генерирует длинную цепочку перед ответом.

Для обычного чата и извлечения фактов режим рассуждений медленнее и дороже без выигрыша в качестве.

Официальная документация V4 на момент превью описывает только текстовый ввод.

Приёма изображений через API нет — заявления о мультимодальности V4 часто путают с отдельной линейкой DeepSeek-VL.

Ночные скидки 50–75%, которые DeepSeek давал в 2025, отменены с 5 сентября 2025.

Упоминания скидок по времени суток из старых статей неактуальны.

Контекстное кеширование включено по умолчанию и снижает стоимость в 50 раз при повторных запросах с одинаковым префиксом.

Но кеш работает только для input, output всегда по полной ставке.

Антипаттерны

Чего не делать

Не делать: оставлять deepseek-chat в production-коде

— потому что алиас выводится 24 июля 2026, миграция в последний день ломает всё.

Не делать: использовать reasoning-режим для обычного чата

— потому что reasoning_content тарифицируется отдельно, и вы платите за размышления, которые модели не нужны.

Не делать: зашивать API-ключ в код репозитория

— потому что ключ утечёт через git log и блокируется провайдером за минуты.

Не делать: мигрировать проект с OpenAI без теста качества

— потому что DeepSeek V4 Flash не равен gpt-4o на узких задачах, и экономия уйдёт на переделки.

Включать режим рассуждений везде.

Для обычного чата, извлечения фактов и RAG он медленнее и дороже без выигрыша в качестве.

Грузить весь контекст просто потому что влезает.

Лишние токены — это деньги и расфокус модели.

Доверять «бесплатному дообучению» без тестов.

Открытая лицензия не заменяет проверку качества.

Переходить ради цены без теста.

Сначала параллельный прогон на ваших задачах, потом миграция.

Чеклист

Проверка перед запуском

Определён сценарий:

большой объём данных, математика и рассуждения, миллионный контекст, агенты, дообучение или локальный запуск.

Выбрана версия:

Flash (быстро и дёшево) или Pro (сложные задачи и большой контекст).

Решено, нужен ли режим рассуждений, и продуман объём цепочки рассуждений в выводе.

Выбран хостинг:

официальный API, сторонний провайдер или своё железо.

Проверена лицензия конкретной модели под ваш вариант коммерческого использования.

Настроен слой модерации для публичных сервисов.

Код переведён с устаревших deepseek-chat / deepseek-reasoner на deepseek-v4- (дедлайн 24 июля 2026).

Готовы тесты для сравнения с текущей моделью на вашей задаче.

Ссылки

API DeepSeek: platform.deepseek.com
Документация: api-docs.deepseek.com
LiteLLM: litellm.ai
OpenRouter: openrouter.ai

Разобрать статью с ИИ

Получите короткий разбор: суть материала, ключевые идеи, что можно применить в своей задаче, что стоит уточнить и с каких шагов начать.

ChatGPT Claude Gemini

Разбери статью VOROBEOFF AI.

Название: «DeepSeek API: V4 Flash за $0.14 и 1M контекста — что нужно знать до подключения»
Ссылка: https://vorobeoffai.ru/knowledge/deepseek-api-i-sdk-praktika-podklyucheniya/

Сначала дай короткое резюме: 5–7 пунктов без воды.

Затем выдели:

1. Главные принципы и критерии качества.
2. Что можно перенести в мою задачу, бизнес, сайт или рабочий процесс.
3. Что нужно уточнить перед исполнением.

В конце предложи 2–3 практических первых шага.

Не копируй текст дословно — адаптируй идеи под реальную задачу.

Продолжить тему

Материалы, которые связаны с этим разбором

Подборка строится по общим тегам, чтобы следующий шаг был связан с текущим контекстом.

Все по теме

База знаний 10 июня 2026 г.

Kimi K2.6: открытая модель, которая не сдаётся на длинной дистанции

Что умеет Kimi K2.6 от Moonshot AI, где она реально выигрывает у закрытых моделей, сколько стоит и что нужно, чтобы запустить её локально.

#ИИ #llm #ai-агенты #выбор-моделей #open-source

База знаний 31 июля 2026 г.

Silero: локальная речевая модель для русского TTS, STT и VAD

Open-source библиотека для синтеза, распознавания и детекции русской речи на CPU без облака и API-ключей

#ИИ #api #open-source #TTS #ai-агенты

Статьи 16 июля 2026 г.

Kimi K3: 2,8 трлн параметров и миллион токенов контекста от Moonshot AI

Флагманская модель Moonshot AI: контекст 1M токенов, режим размышления, визуальный ввод, вызов инструментов и автоматическое кеширование контекста. Полный разбор с примерами кода на Python и curl.

#ИИ #api #LLM #Moonshot AI #Kimi

Виталий Воробьев

Есть процесс, который пора автоматизировать?

Напишите, что каждый день забирает время: заявки, документы, CRM, поддержка, контент или внутренняя рутина. Я покажу, где ИИ можно встроить без лишней сложности и какой первый рабочий шаг сделать.

Написать в Telegram Открыть канал