Семейство моделей Gemini от Google DeepMind давно перестало быть «ещё одной альтернативой GPT». За счёт миллионного контекста, нативной мультимодальности и быстрых Flash-версий оно проникло в половину продуктов Google — от приложения Gemini до Vertex AI и встроенных функций Android. На конец июня 2026 года актуальная линейка широкая, тарифы и лимиты перетрясли на I/O 2026, а голосовые сценарии выделились в отдельный класс моделей.
Этот материал — рабочая шпаргалка: какие модели брать под задачу, как устроен доступ через Gemini API и Vertex AI, что изменилось в подписках приложения Gemini и где ждать региональных сюрпризов. Все цены и тарифы — по состоянию на конец июня 2026.
Ключевое правило: если задача живёт в экосистеме Google или требует подачи видео/аудио напрямую — Gemini почти всегда дешевле в интеграции, чем собирать пайплайн Whisper + GPT + классификатор.
Что это
Gemini — семейство мультимодальных языковых моделей от Google DeepMind, лежащее в основе большинства AI-продуктов Google: приложения Gemini, Google AI Studio, Vertex AI, Antigravity, функций Gemini в Gmail/Docs/Vids, NotebookLM и интегрированных моделей в Android.
Главные отличия от других семейств:
- Нативная мультимодальность. Модели 3.x принимают текст, изображения, аудио и видео в одном запросе без отдельного OCR/ASR-pipeline.
- Большое контекстное окно. Флагманские модели работают с контекстом до 1 миллиона токенов — в этот объём помещаются длинные видео, стенограммы, репозитории.
- Голосовой режим Gemini Live. Audio-to-audio диалог без промежуточного перевода в текст, с низкой задержкой и возможностью прерывать модель голосом.
- Compute-based лимиты. С мая 2026 года Google ушла от «запросов в день» к модели «compute-used»: простая подсказка тратит меньше квоты, чем сложная мультимодальная или код-сценарий. Квота обнуляется каждые пять часов до еженедельного потолка.
Зачем нужно
- Агентный кодинг и code review — Pro-серия держит 1M контекста, Antigravity использует её как основной рантайм; версии Flash дают быстрые итерации.
- Мультимодальные пайплайны — видео, длинные PDF, аудиозаписи: то, что другие семейства решают цепочкой моделей, Gemini делает одним запросом.
- Голосовые агенты и ассистенты реального времени — Gemini Live (audio-to-audio) даёт низкую задержку и возможность прерывать модель голосом.
- RAG по большим хранилищам — миллион токенов позволяет класть в контекст целые книги, транскрипты встреч или кодовые базы без внешнего векторного индекса.
- Генерация голоса (TTS) и распознавание речи (ASR) — в линейке есть отдельные модели для синтеза речи и быстрый распознаватель.
- Корпоративные сценарии в Google Cloud — Provisioned Throughput, batch prediction, интеграция с остальными сервисами через Vertex AI.
Как устроено
Линейка разбита на три крупные ветки: текст-и-рассуждения, аудио-и-голос, продакшн-модели для приложения Gemini.
| Ветка | Семейство | Контекст | Для чего |
|---|---|---|---|
| Текст, код, рассуждения | Gemini 3.1 Pro Preview | 1M | Сложный анализ, многошаговые рассуждения, агентные задачи |
| Текст, код, рассуждения | Gemini 3 Flash | до 1M | Баланс скорости и интеллекта; «рабочая лошадка» для большинства задач |
| Текст, код, рассуждения | Gemini 3.1 Flash-Lite Preview | до 1M | Массовые запросы, чат-боты, ASR; максимальная экономия |
| Текст, код, рассуждения | Gemini 2.5 Pro / Flash | до 1M | Совместимость со старым кодом, если привязаны к конкретной версии |
| Аудио / голос | Gemini 3.1 Flash Live Preview | realtime | Audio-to-audio (A2A) диалог в реальном времени |
| Аудио / голос | Gemini 2.5 Flash Live Preview | realtime | Двунаправленные голосовые и видео-агенты с нативным аудио-рассуждением |
| Аудио / голос | Gemini 2.5 Flash TTS Preview | — | Синтез речи с низкой задержкой |
| Медиа и агенты | Gemini Omni | мультимодальный | Текст + изображения + видео-вход → видео-выход (I/O 2026) |
| Медиа и агенты | Gemini 3.5 Flash | — | Быстрый testing/debug/iteration для разработчиков (Ultra $100/200) |
| Специальные | Project Genie | realtime | Генерация интерактивных миров Genie 3 для Ultra $200 |
| Специальные | Gemini Spark | — | 24/7 AI-агент в продуктах Google; US-only Beta для Ultra |
Заметка о Gemini 3 Flash/3.5 Flash: это разные поколения. Внешний справочник от апреля 2026 называет «Gemini 3 Flash» как основную модель; на I/O 2026 (19 мая 2026) Google выпустила Gemini 3.5 Flash для Ultra-подписчиков. Для не-Ultra сценариев рабочей лошадкой остаётся линейка Gemini 3.x.
Доступ через API и SDK
Google AI Studio — бесплатный веб-интерфейс для экспериментов. Здесь же получаете API-ключ и сразу начинаете работу. Минимальный вызов через REST:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{"contents": [{"parts": [{"text": "Explain how AI works"}]}]}'
Базовый URL — generativelanguage.googleapis.com/v1beta, аутентификация через заголовок x-goog-api-key.
SDK. Официальные библиотеки для Python, JavaScript/TypeScript, Go, Swift, Dart. Установка для Python:
pip install google-genai
Внимание: раньше пакет назывался google-generativeai (legacy). С 2025 года Google объединила SDK в google-genai — единая точка входа для Gemini API и Vertex AI. Старый пакет ещё работает, но для новых проектов начинайте с google-genai.
Vertex AI — enterprise-платформа в Google Cloud. Это та же модель, но с другим контуром доступа:
- Корпоративный SLA и расширенная безопасность.
- Provisioned Throughput — гарантированная пропускная способность для продакшна.
- Batch prediction — для массовой обработки вне реального времени.
- Интеграция с остальными сервисами Google Cloud (BigQuery, GCS, IAM).
Live API — отдельный API для потокового взаимодействия в реальном времени (audio/image/text ↔ audio/text). Используется для голосовых ассистентов, видео-conversation-агентов и любых сценариев, где важна постоянная двусторонняя связь.
Мультимодальность моделей 3.x
| Тип входа | Что умеют модели 3.x |
|---|---|
| Текст | Генерация, анализ, перевод, суммаризация |
| Изображения | Понимание, описание, генерация (через Gemini 2.5 Flash Image) |
| Аудио | Распознавание речи (ASR), анализ звука, генерация голоса (TTS — отдельные модели) |
| Видео | Анализ видеопотока, описание сцен, ответы на вопросы по видео |
| Код | Генерация, ревью, дебаг, автономный кодинг через Antigravity |
Контекстное окно до 1 миллиона токенов позволяет загружать большие документы, длинные видео и аудиозаписи целиком — без предварительного чанкинга.
Когда использовать
| Ситуация | Подходит / не подходит | Почему |
|---|---|---|
| Длинный документ на 100–800 страниц | Подходит | 1M контекста вмещает без чанкинга |
| Голосовой ассистент с прерыванием голосом | Подходит | A2A в Gemini Live; нативное голосовое рассуждение |
| Видео-аналитика (распознавание сцен, OCR по видео) | Подходит | Нативный видео-вход; нет нужды в отдельных CV-моделях |
| Агентный кодинг в реальном времени | Подходит | Antigravity + 1M контекста + Pro-серия |
| Массовые чат-боты с низкой ценой запроса | Подходит | Gemini 3.x Flash-Lite / 3.5 Flash — экономия |
| Production с регуляторными требованиями (ФЗ-152, ISO) | Подходит через Vertex AI | Provisioned Throughput, IAM, логирование в Cloud |
| Команда в России и нужен API из РФ | Не подходит напрямую | Региональные ограничения; нужен корпоративный контур |
| Нужен on-device инференс на смартфоне | Не подходит | Это облачные модели; для on-device есть Gemma/EmbeddingGemma |
| Строго лимитированный бюджет на стороне API | Условно подходит | Бесплатный tier ограничен; цены зависят от модели и региона |
Пример
Быстрый REST-вызов (cURL)
# Переменные окружения
export GEMINI_API_KEY="ваш_ключ_из_AI_Studio"
# Простой запрос
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts": [{"text": "Объясни разницу между RAG и fine-tuning тремя абзацами"}]
}]
}' | jq '.candidates[0].content.parts[0].text'
Ответ приходит в формате candidates[0].content.parts[0].text. Для стриминга используется тот же endpoint с параметром ?alt=sse или stream-метод streamGenerateContent.
Python SDK (google-genai)
from google import genai
client = genai.Client(api_key="ваш_ключ")
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Расскажи про региональные ограничения Gemini API",
)
print(response.text)
Аудио-вход (мультимодальный запрос)
from google import genai
client = genai.Client(api_key="ваш_ключ")
# Аудиофайл + текстовый вопрос
with open("interview.mp3", "rb") as f:
audio_bytes = f.read()
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=[
"Сделай саммари этого интервью и выдели три ключевых тезиса",
{"inline_data": {"mime_type": "audio/mpeg", "data": audio_bytes}},
],
)
print(response.text)
Переход с Google AI Studio на Vertex AI
Когда выходите из прототипа в продакшн, обычно переезжаете с бесплатного Gemini API на Vertex AI. Это не «новая модель» — это другой контур доступа и SLA. Главное отличие в коде:
# Google AI Studio — ключ берётся из aistudio.google.com
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
# Vertex AI — ключ берётся из gcloud auth application-default login,
# а регион задаётся явно
client = genai.Client(
vertex=True,
project="my-project-id",
location="us-central1",
)
Дальше работают те же models.generate_content(…) и models.generate_content_stream(…) — менять вызовы под каждую модель не нужно.
Тарифы и лимиты
Подписки приложения Gemini (по состоянию на конец июня 2026, после I/O 2026)
После реструктуризации 19 мая 2026 года линейка приложения стала такой:
| Уровень | Цена (USD/мес) | Ключевые отличия |
|---|---|---|
| Бесплатный | $0 | Доступ к 3.5 Flash и переменный — к 3 Pro; 15 ГБ хранилища |
| Google AI Plus | ~$7.99 | Удвоенные лимиты vs Free; видеогенерация; 400 ГБ |
| Google AI Pro | ~$19.99 | Квадрированные лимиты; 3 Pro + Deep Search; 5 ТБ; YouTube Premium Lite |
| Google AI Ultra (стартовый) | $99.99 | Лимиты ×5 от Pro; Gemini 3.5 Flash; приоритет Antigravity; 20 ТБ; YouTube Premium |
| Google AI Ultra (полный) | $200.00 | Лимиты ×20 от Pro; Project Genie; расширенные agent-функции; 20 ТБ |
Заметка о ценах: для ряда стран (например, ЕС) цифры в евро (€22.99 для Pro, €99.99 / €229.99 для Ultra) — это нормализованные цены региональной выдачи и могут колебаться по курсу.
Что заменили в мае 2026:
- Дневные лимиты на количество запросов ушли — теперь compute-used (сложность подсказки) с обнулением каждые 5 часов до еженедельного потолка.
- При исчерпании основной модели пользователя автоматически переключают на быструю Flash-модель.
- Pro и Ultra могут докупить pay-as-you-go AI credits для Antigravity, Google Flow и скоро Gemini-приложения.
Gemini API для разработчиков
| Параметр | Значение |
|---|---|
| Бесплатный tier | Есть: ограниченный доступ к части моделей, free input на момент запуска |
| Платный tier | Prepaid / pay-as-you-go; цены зависят от модели |
| Аутентификация | API-ключ через x-goog-api-key; в Vertex AI — gcloud auth + регион |
| Документация | https://ai.google.dev/gemini-api/docs/pricing |
Стартовать можно без карты: в AI Studio выдаётся ключ с лимитами на бесплатный tier. Когда упираетесь в лимиты или нужен SLA — открываете billing-аккаунт (Stripe по карте или Cloud Billing через Google Cloud).
Региональные ограничения
- Веб-приложение Gemini — доступно в 230+ странах на 70+ языках.
- Мобильное приложение и Gemini Live — в 150+ странах.
- Google AI Studio и Gemini API — доступны не во всех регионах. Россия не входит в список поддерживаемых стран для API. Полный список — на странице Available regions.
- Vertex AI — привязан к регионам Google Cloud; модельный ряд шире там, где регион активен.
- Gemini Live на десктопе — пока ограничен по географии (преимущественно США).
- При использовании VPN — возможны блокировки аккаунта при резкой смене геолокации (смена IP в течение одной сессии, подозрительный паттерн).
Практический вывод: если вы в России и нужен именно Gemini API напрямую, самый чистый путь — корпоративный Google Cloud через юрлицо в поддерживаемой юрисдикции либо работа через посредника (MCP-прокси, агрегаторы вроде OpenRouter). Личный ключ в РФ-аккаунте не активируется.
Сравнение с GPT и Claude
| Параметр | Gemini 3.1 Pro | GPT-5.4 (OpenAI) | Claude Opus 4.6 (Anthropic) |
|---|---|---|---|
| Контекст | 1M токенов | 400K токенов | 1M токенов |
| Мультимодальность | Текст, изображения, аудио, видео | Текст, изображения, аудио | Текст, изображения |
| Голосовой режим | Gemini Live (A2A) | Voice Mode | Нет нативного |
| Сильные стороны | Скорость, мультимодальность, контекст | Универсальность, экосистема | Качество текста, рассуждения, код |
| Слабые стороны | Региональные ограничения API | Меньше контекст | Нет нативного голоса и видео |
«Лучшей модели» не существует — выбор зависит от задачи. Gemini лидирует по скорости и мультимодальности, Claude — по качеству текста и кода, GPT — по ширине экосистемы и универсальности.
Инсайт: если проект уже сидит в экосистеме Google — выбирайте Gemini: меньше трения с аутентификацией, ближе интеграция с Drive/Docs/Sheets, удобнее AI Inbox и Daily Brief. Если нужен лучший текст и код — берите Claude Opus. Если нужен широкий выбор моделей в одном API и зрелая агентная инфраструктура — GPT.
Ограничения
Ограничения
Что учитывать
Региональный барьер — Gemini API недоступен в РФ напрямую:
нужен корпоративный контур в поддерживаемой юрисдикции или посредник.
Compute-based лимиты
простой текст тратит мало квоты, видео и длинные код-сценарии расходуют её быстро; еженедельный потолок пересчитывается каждые 5 часов.
Авто-fallback при исчерпании
при упирании в лимит Pro/Flash-модели приложение автоматически переключает вас на Flash-Lite; поведение в API задаётся явной ротацией моделей.
Vertex AI ≠ Gemini API
это разные контуры с разной аутентификацией, регионами и SLA; миграция требует смены эндпоинта и проекта.
Переходные версии Flash
линейка 3.x уже соседствует с 3.5 Flash; закрепляйте конкретный ID модели в проде (gemini-3-flash-preview), а не имя семейства.
Цены зависят от региона
для ЕС цифры отличаются от USD-тарифа; при планировании бюджета проверяйте локальную выдачу.
Live API ещё молодой
лучше всего работает для коротких voice-циклов; для длинных диалогов подходит Flash-Live Preview, а не обычные модели.
Антипаттерны
Антипаттерны
Чего не делать
Не выбирайте Pro для массового чат-бота
для большого RPS-сервиса возьмите Flash-Lite или 3.5 Flash; Pro-серия дорогая и медленная на нагрузке, не соответствующей её сильным сторонам.
Не храните API-ключ в клиентском коде
для фронтенда проксируйте через свой backend; ключ из AI Studio имеет квоту на платный tier при компрометации.
Не передавайте чувствительные данные без review
Google обещает не использовать ввод на Free/Pro tier для обучения, но для строгих данных (PII, медицина, финансы) используйте Vertex AI с явным DPA.
Не делайте 1M-контекст по привычке
стоимость и задержка растут даже на Flash; для большинства задач 100–200K достаточно, остальное держите в RAG-индексе.
Не игнорируйте compute-based лимиты
старые скрипты «считают запросы» сломаются; пересчитайте квоту по сложности и переобновите сценарии, которые раньше укладывались в «запросы в день».
Не подключайте видео без inline_data со стороны parts — большинство SDK ждёт структуру contents=[text, {“inline_data”:
{…}}], а не «голый» URL; иначе упадёт на валидации запроса.
Не сравнивайте Pro и GPT по первым 5 минутам
первый запрос к Pro может быть холодным (cold-start ~1–2 секунды); замеряйте медианную задержку за десятки запросов.
Чеклист
Чеклист
Проверка перед запуском
Регион проверен
убедились, что API доступен в вашей юрисдикции; для РФ — настроен корпоративный обходной путь.
Ключ в секрет-менеджере
GEMINI_API_KEY лежит в env/secret store, а не в коде и не в репозитории.
Модель зафиксирована
выбранный model (например, gemini-3-flash-preview) прописан в конфиге, а не в коде вызова.
Лимиты выставлены на клиенте
safety_settings, generation_config.max_output_tokens и temperature задаются явно.
Compute-based квота учтена
для длинных видео и сложных код-агентов заложен запас по еженедельной квоте.
Стоимость посчитана
для прод-нагрузки пересчитали стоимость в USD/1K запросов при выбранной модели и объёме контекста.
Телеметрия включена
логируем токены (input/output), задержку, ID запроса для разбора спорных случаев через Cloud Logging или собственный backend.
Fallback-модель прописана
на случай исчерпания квоты или таймаута — явная ротация на Flash-Lite с тем же форматом ответа.
Ссылки
Ссылки
- Документация: Gemini API — документация
- Playground: Google AI Studio
- Vertex AI: Модели Gemini
- Live API: Gemini Live API
- Тарифы: Gemini Developer API pricing
- Регионы: Available regions
- Блог Google: Google AI subscriptions — что нового на I/O 2026
- Обзор: Gemini Live — overview