Семейство моделей Gemini от Google DeepMind давно перестало быть «ещё одной альтернативой GPT». За счёт миллионного контекста, нативной мультимодальности и быстрых Flash-версий оно проникло в половину продуктов Google — от приложения Gemini до Vertex AI и встроенных функций Android. На конец июня 2026 года актуальная линейка широкая, тарифы и лимиты перетрясли на I/O 2026, а голосовые сценарии выделились в отдельный класс моделей.

Этот материал — рабочая шпаргалка: какие модели брать под задачу, как устроен доступ через Gemini API и Vertex AI, что изменилось в подписках приложения Gemini и где ждать региональных сюрпризов. Все цены и тарифы — по состоянию на конец июня 2026.

Ключевое правило: если задача живёт в экосистеме Google или требует подачи видео/аудио напрямую — Gemini почти всегда дешевле в интеграции, чем собирать пайплайн Whisper + GPT + классификатор.

Что это

Gemini — семейство мультимодальных языковых моделей от Google DeepMind, лежащее в основе большинства AI-продуктов Google: приложения Gemini, Google AI Studio, Vertex AI, Antigravity, функций Gemini в Gmail/Docs/Vids, NotebookLM и интегрированных моделей в Android.

Главные отличия от других семейств:

  • Нативная мультимодальность. Модели 3.x принимают текст, изображения, аудио и видео в одном запросе без отдельного OCR/ASR-pipeline.
  • Большое контекстное окно. Флагманские модели работают с контекстом до 1 миллиона токенов — в этот объём помещаются длинные видео, стенограммы, репозитории.
  • Голосовой режим Gemini Live. Audio-to-audio диалог без промежуточного перевода в текст, с низкой задержкой и возможностью прерывать модель голосом.
  • Compute-based лимиты. С мая 2026 года Google ушла от «запросов в день» к модели «compute-used»: простая подсказка тратит меньше квоты, чем сложная мультимодальная или код-сценарий. Квота обнуляется каждые пять часов до еженедельного потолка.

Зачем нужно

  • Агентный кодинг и code review — Pro-серия держит 1M контекста, Antigravity использует её как основной рантайм; версии Flash дают быстрые итерации.
  • Мультимодальные пайплайны — видео, длинные PDF, аудиозаписи: то, что другие семейства решают цепочкой моделей, Gemini делает одним запросом.
  • Голосовые агенты и ассистенты реального времени — Gemini Live (audio-to-audio) даёт низкую задержку и возможность прерывать модель голосом.
  • RAG по большим хранилищам — миллион токенов позволяет класть в контекст целые книги, транскрипты встреч или кодовые базы без внешнего векторного индекса.
  • Генерация голоса (TTS) и распознавание речи (ASR) — в линейке есть отдельные модели для синтеза речи и быстрый распознаватель.
  • Корпоративные сценарии в Google Cloud — Provisioned Throughput, batch prediction, интеграция с остальными сервисами через Vertex AI.

Как устроено

Линейка разбита на три крупные ветки: текст-и-рассуждения, аудио-и-голос, продакшн-модели для приложения Gemini.

ВеткаСемействоКонтекстДля чего
Текст, код, рассужденияGemini 3.1 Pro Preview1MСложный анализ, многошаговые рассуждения, агентные задачи
Текст, код, рассужденияGemini 3 Flashдо 1MБаланс скорости и интеллекта; «рабочая лошадка» для большинства задач
Текст, код, рассужденияGemini 3.1 Flash-Lite Previewдо 1MМассовые запросы, чат-боты, ASR; максимальная экономия
Текст, код, рассужденияGemini 2.5 Pro / Flashдо 1MСовместимость со старым кодом, если привязаны к конкретной версии
Аудио / голосGemini 3.1 Flash Live PreviewrealtimeAudio-to-audio (A2A) диалог в реальном времени
Аудио / голосGemini 2.5 Flash Live PreviewrealtimeДвунаправленные голосовые и видео-агенты с нативным аудио-рассуждением
Аудио / голосGemini 2.5 Flash TTS PreviewСинтез речи с низкой задержкой
Медиа и агентыGemini OmniмультимодальныйТекст + изображения + видео-вход → видео-выход (I/O 2026)
Медиа и агентыGemini 3.5 FlashБыстрый testing/debug/iteration для разработчиков (Ultra $100/200)
СпециальныеProject GenierealtimeГенерация интерактивных миров Genie 3 для Ultra $200
СпециальныеGemini Spark24/7 AI-агент в продуктах Google; US-only Beta для Ultra

Заметка о Gemini 3 Flash/3.5 Flash: это разные поколения. Внешний справочник от апреля 2026 называет «Gemini 3 Flash» как основную модель; на I/O 2026 (19 мая 2026) Google выпустила Gemini 3.5 Flash для Ultra-подписчиков. Для не-Ultra сценариев рабочей лошадкой остаётся линейка Gemini 3.x.

Доступ через API и SDK

Google AI Studio — бесплатный веб-интерфейс для экспериментов. Здесь же получаете API-ключ и сразу начинаете работу. Минимальный вызов через REST:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{"contents": [{"parts": [{"text": "Explain how AI works"}]}]}'

Базовый URL — generativelanguage.googleapis.com/v1beta, аутентификация через заголовок x-goog-api-key.

SDK. Официальные библиотеки для Python, JavaScript/TypeScript, Go, Swift, Dart. Установка для Python:

pip install google-genai

Внимание: раньше пакет назывался google-generativeai (legacy). С 2025 года Google объединила SDK в google-genai — единая точка входа для Gemini API и Vertex AI. Старый пакет ещё работает, но для новых проектов начинайте с google-genai.

Vertex AI — enterprise-платформа в Google Cloud. Это та же модель, но с другим контуром доступа:

  • Корпоративный SLA и расширенная безопасность.
  • Provisioned Throughput — гарантированная пропускная способность для продакшна.
  • Batch prediction — для массовой обработки вне реального времени.
  • Интеграция с остальными сервисами Google Cloud (BigQuery, GCS, IAM).

Live API — отдельный API для потокового взаимодействия в реальном времени (audio/image/text ↔ audio/text). Используется для голосовых ассистентов, видео-conversation-агентов и любых сценариев, где важна постоянная двусторонняя связь.

Мультимодальность моделей 3.x

Тип входаЧто умеют модели 3.x
ТекстГенерация, анализ, перевод, суммаризация
ИзображенияПонимание, описание, генерация (через Gemini 2.5 Flash Image)
АудиоРаспознавание речи (ASR), анализ звука, генерация голоса (TTS — отдельные модели)
ВидеоАнализ видеопотока, описание сцен, ответы на вопросы по видео
КодГенерация, ревью, дебаг, автономный кодинг через Antigravity

Контекстное окно до 1 миллиона токенов позволяет загружать большие документы, длинные видео и аудиозаписи целиком — без предварительного чанкинга.

Когда использовать

СитуацияПодходит / не подходитПочему
Длинный документ на 100–800 страницПодходит1M контекста вмещает без чанкинга
Голосовой ассистент с прерыванием голосомПодходитA2A в Gemini Live; нативное голосовое рассуждение
Видео-аналитика (распознавание сцен, OCR по видео)ПодходитНативный видео-вход; нет нужды в отдельных CV-моделях
Агентный кодинг в реальном времениПодходитAntigravity + 1M контекста + Pro-серия
Массовые чат-боты с низкой ценой запросаПодходитGemini 3.x Flash-Lite / 3.5 Flash — экономия
Production с регуляторными требованиями (ФЗ-152, ISO)Подходит через Vertex AIProvisioned Throughput, IAM, логирование в Cloud
Команда в России и нужен API из РФНе подходит напрямуюРегиональные ограничения; нужен корпоративный контур
Нужен on-device инференс на смартфонеНе подходитЭто облачные модели; для on-device есть Gemma/EmbeddingGemma
Строго лимитированный бюджет на стороне APIУсловно подходитБесплатный tier ограничен; цены зависят от модели и региона

Пример

Быстрый REST-вызов (cURL)

# Переменные окружения
export GEMINI_API_KEY="ваш_ключ_из_AI_Studio"

# Простой запрос
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{
      "parts": [{"text": "Объясни разницу между RAG и fine-tuning тремя абзацами"}]
    }]
  }' | jq '.candidates[0].content.parts[0].text'

Ответ приходит в формате candidates[0].content.parts[0].text. Для стриминга используется тот же endpoint с параметром ?alt=sse или stream-метод streamGenerateContent.

Python SDK (google-genai)

from google import genai

client = genai.Client(api_key="ваш_ключ")

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="Расскажи про региональные ограничения Gemini API",
)

print(response.text)

Аудио-вход (мультимодальный запрос)

from google import genai

client = genai.Client(api_key="ваш_ключ")

# Аудиофайл + текстовый вопрос
with open("interview.mp3", "rb") as f:
    audio_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[
        "Сделай саммари этого интервью и выдели три ключевых тезиса",
        {"inline_data": {"mime_type": "audio/mpeg", "data": audio_bytes}},
    ],
)

print(response.text)

Переход с Google AI Studio на Vertex AI

Когда выходите из прототипа в продакшн, обычно переезжаете с бесплатного Gemini API на Vertex AI. Это не «новая модель» — это другой контур доступа и SLA. Главное отличие в коде:

# Google AI Studio — ключ берётся из aistudio.google.com
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

# Vertex AI — ключ берётся из gcloud auth application-default login,
# а регион задаётся явно
client = genai.Client(
    vertex=True,
    project="my-project-id",
    location="us-central1",
)

Дальше работают те же models.generate_content(…) и models.generate_content_stream(…) — менять вызовы под каждую модель не нужно.

Тарифы и лимиты

Подписки приложения Gemini (по состоянию на конец июня 2026, после I/O 2026)

После реструктуризации 19 мая 2026 года линейка приложения стала такой:

УровеньЦена (USD/мес)Ключевые отличия
Бесплатный$0Доступ к 3.5 Flash и переменный — к 3 Pro; 15 ГБ хранилища
Google AI Plus~$7.99Удвоенные лимиты vs Free; видеогенерация; 400 ГБ
Google AI Pro~$19.99Квадрированные лимиты; 3 Pro + Deep Search; 5 ТБ; YouTube Premium Lite
Google AI Ultra (стартовый)$99.99Лимиты ×5 от Pro; Gemini 3.5 Flash; приоритет Antigravity; 20 ТБ; YouTube Premium
Google AI Ultra (полный)$200.00Лимиты ×20 от Pro; Project Genie; расширенные agent-функции; 20 ТБ

Заметка о ценах: для ряда стран (например, ЕС) цифры в евро (€22.99 для Pro, €99.99 / €229.99 для Ultra) — это нормализованные цены региональной выдачи и могут колебаться по курсу.

Что заменили в мае 2026:

  • Дневные лимиты на количество запросов ушли — теперь compute-used (сложность подсказки) с обнулением каждые 5 часов до еженедельного потолка.
  • При исчерпании основной модели пользователя автоматически переключают на быструю Flash-модель.
  • Pro и Ultra могут докупить pay-as-you-go AI credits для Antigravity, Google Flow и скоро Gemini-приложения.

Gemini API для разработчиков

ПараметрЗначение
Бесплатный tierЕсть: ограниченный доступ к части моделей, free input на момент запуска
Платный tierPrepaid / pay-as-you-go; цены зависят от модели
АутентификацияAPI-ключ через x-goog-api-key; в Vertex AI — gcloud auth + регион
Документацияhttps://ai.google.dev/gemini-api/docs/pricing

Стартовать можно без карты: в AI Studio выдаётся ключ с лимитами на бесплатный tier. Когда упираетесь в лимиты или нужен SLA — открываете billing-аккаунт (Stripe по карте или Cloud Billing через Google Cloud).

Региональные ограничения

  • Веб-приложение Gemini — доступно в 230+ странах на 70+ языках.
  • Мобильное приложение и Gemini Live — в 150+ странах.
  • Google AI Studio и Gemini API — доступны не во всех регионах. Россия не входит в список поддерживаемых стран для API. Полный список — на странице Available regions.
  • Vertex AI — привязан к регионам Google Cloud; модельный ряд шире там, где регион активен.
  • Gemini Live на десктопе — пока ограничен по географии (преимущественно США).
  • При использовании VPN — возможны блокировки аккаунта при резкой смене геолокации (смена IP в течение одной сессии, подозрительный паттерн).

Практический вывод: если вы в России и нужен именно Gemini API напрямую, самый чистый путь — корпоративный Google Cloud через юрлицо в поддерживаемой юрисдикции либо работа через посредника (MCP-прокси, агрегаторы вроде OpenRouter). Личный ключ в РФ-аккаунте не активируется.

Сравнение с GPT и Claude

ПараметрGemini 3.1 ProGPT-5.4 (OpenAI)Claude Opus 4.6 (Anthropic)
Контекст1M токенов400K токенов1M токенов
МультимодальностьТекст, изображения, аудио, видеоТекст, изображения, аудиоТекст, изображения
Голосовой режимGemini Live (A2A)Voice ModeНет нативного
Сильные стороныСкорость, мультимодальность, контекстУниверсальность, экосистемаКачество текста, рассуждения, код
Слабые стороныРегиональные ограничения APIМеньше контекстНет нативного голоса и видео

«Лучшей модели» не существует — выбор зависит от задачи. Gemini лидирует по скорости и мультимодальности, Claude — по качеству текста и кода, GPT — по ширине экосистемы и универсальности.

Инсайт: если проект уже сидит в экосистеме Google — выбирайте Gemini: меньше трения с аутентификацией, ближе интеграция с Drive/Docs/Sheets, удобнее AI Inbox и Daily Brief. Если нужен лучший текст и код — берите Claude Opus. Если нужен широкий выбор моделей в одном API и зрелая агентная инфраструктура — GPT.

Ограничения

Ограничения

Что учитывать

Региональный барьер — Gemini API недоступен в РФ напрямую:

нужен корпоративный контур в поддерживаемой юрисдикции или посредник.

Compute-based лимиты

простой текст тратит мало квоты, видео и длинные код-сценарии расходуют её быстро; еженедельный потолок пересчитывается каждые 5 часов.

Авто-fallback при исчерпании

при упирании в лимит Pro/Flash-модели приложение автоматически переключает вас на Flash-Lite; поведение в API задаётся явной ротацией моделей.

Vertex AI ≠ Gemini API

это разные контуры с разной аутентификацией, регионами и SLA; миграция требует смены эндпоинта и проекта.

Переходные версии Flash

линейка 3.x уже соседствует с 3.5 Flash; закрепляйте конкретный ID модели в проде (gemini-3-flash-preview), а не имя семейства.

Цены зависят от региона

для ЕС цифры отличаются от USD-тарифа; при планировании бюджета проверяйте локальную выдачу.

Live API ещё молодой

лучше всего работает для коротких voice-циклов; для длинных диалогов подходит Flash-Live Preview, а не обычные модели.

Антипаттерны

Антипаттерны

Чего не делать

Не выбирайте Pro для массового чат-бота

для большого RPS-сервиса возьмите Flash-Lite или 3.5 Flash; Pro-серия дорогая и медленная на нагрузке, не соответствующей её сильным сторонам.

Не храните API-ключ в клиентском коде

для фронтенда проксируйте через свой backend; ключ из AI Studio имеет квоту на платный tier при компрометации.

Не передавайте чувствительные данные без review

Google обещает не использовать ввод на Free/Pro tier для обучения, но для строгих данных (PII, медицина, финансы) используйте Vertex AI с явным DPA.

Не делайте 1M-контекст по привычке

стоимость и задержка растут даже на Flash; для большинства задач 100–200K достаточно, остальное держите в RAG-индексе.

Не игнорируйте compute-based лимиты

старые скрипты «считают запросы» сломаются; пересчитайте квоту по сложности и переобновите сценарии, которые раньше укладывались в «запросы в день».

Не подключайте видео без inline_data со стороны parts — большинство SDK ждёт структуру contents=[text, {“inline_data”:

{…}}], а не «голый» URL; иначе упадёт на валидации запроса.

Не сравнивайте Pro и GPT по первым 5 минутам

первый запрос к Pro может быть холодным (cold-start ~1–2 секунды); замеряйте медианную задержку за десятки запросов.

Чеклист

Чеклист

Проверка перед запуском

Регион проверен

убедились, что API доступен в вашей юрисдикции; для РФ — настроен корпоративный обходной путь.

Ключ в секрет-менеджере

GEMINI_API_KEY лежит в env/secret store, а не в коде и не в репозитории.

Модель зафиксирована

выбранный model (например, gemini-3-flash-preview) прописан в конфиге, а не в коде вызова.

Лимиты выставлены на клиенте

safety_settings, generation_config.max_output_tokens и temperature задаются явно.

Compute-based квота учтена

для длинных видео и сложных код-агентов заложен запас по еженедельной квоте.

Стоимость посчитана

для прод-нагрузки пересчитали стоимость в USD/1K запросов при выбранной модели и объёме контекста.

Телеметрия включена

логируем токены (input/output), задержку, ID запроса для разбора спорных случаев через Cloud Logging или собственный backend.

Fallback-модель прописана

на случай исчерпания квоты или таймаута — явная ротация на Flash-Lite с тем же форматом ответа.

Ссылки

Ссылки