Справочник

Gemini: где выбрать, как подключить и где не споткнуться — практический гид по линейке моделей Google

Линейка Gemini 3.x, Gemini Live, Vertex AI и Gemini API — что выбрать под задачу, как перейти с AI Studio на Vertex, что изменилось в тарифах после I/O 2026 и где ждать региональных сюрпризов.

29 июня 2026 г. llm api Инструменты ИИ сравнение

Семейство моделей Gemini от Google DeepMind давно перестало быть «ещё одной альтернативой GPT». За счёт миллионного контекста, нативной мультимодальности и быстрых Flash-версий оно проникло в половину продуктов Google — от приложения Gemini до Vertex AI и встроенных функций Android. На конец июня 2026 года актуальная линейка широкая, тарифы и лимиты перетрясли на I/O 2026, а голосовые сценарии выделились в отдельный класс моделей.

Этот материал — рабочая шпаргалка: какие модели брать под задачу, как устроен доступ через Gemini API и Vertex AI, что изменилось в подписках приложения Gemini и где ждать региональных сюрпризов. Все цены и тарифы — по состоянию на конец июня 2026.

Ключевое правило: если задача живёт в экосистеме Google или требует подачи видео/аудио напрямую — Gemini почти всегда дешевле в интеграции, чем собирать пайплайн Whisper + GPT + классификатор.

Что это

Gemini — семейство мультимодальных языковых моделей от Google DeepMind, лежащее в основе большинства AI-продуктов Google: приложения Gemini, Google AI Studio, Vertex AI, Antigravity, функций Gemini в Gmail/Docs/Vids, NotebookLM и интегрированных моделей в Android.

Главные отличия от других семейств:

Нативная мультимодальность. Модели 3.x принимают текст, изображения, аудио и видео в одном запросе без отдельного OCR/ASR-pipeline.
Большое контекстное окно. Флагманские модели работают с контекстом до 1 миллиона токенов — в этот объём помещаются длинные видео, стенограммы, репозитории.
Голосовой режим Gemini Live. Audio-to-audio диалог без промежуточного перевода в текст, с низкой задержкой и возможностью прерывать модель голосом.
Compute-based лимиты. С мая 2026 года Google ушла от «запросов в день» к модели «compute-used»: простая подсказка тратит меньше квоты, чем сложная мультимодальная или код-сценарий. Квота обнуляется каждые пять часов до еженедельного потолка.

Зачем нужно

Агентный кодинг и code review — Pro-серия держит 1M контекста, Antigravity использует её как основной рантайм; версии Flash дают быстрые итерации.
Мультимодальные пайплайны — видео, длинные PDF, аудиозаписи: то, что другие семейства решают цепочкой моделей, Gemini делает одним запросом.
Голосовые агенты и ассистенты реального времени — Gemini Live (audio-to-audio) даёт низкую задержку и возможность прерывать модель голосом.
RAG по большим хранилищам — миллион токенов позволяет класть в контекст целые книги, транскрипты встреч или кодовые базы без внешнего векторного индекса.
Генерация голоса (TTS) и распознавание речи (ASR) — в линейке есть отдельные модели для синтеза речи и быстрый распознаватель.
Корпоративные сценарии в Google Cloud — Provisioned Throughput, batch prediction, интеграция с остальными сервисами через Vertex AI.

Как устроено

Линейка разбита на три крупные ветки: текст-и-рассуждения, аудио-и-голос, продакшн-модели для приложения Gemini.

Ветка	Семейство	Контекст	Для чего
Текст, код, рассуждения	Gemini 3.1 Pro Preview	1M	Сложный анализ, многошаговые рассуждения, агентные задачи
Текст, код, рассуждения	Gemini 3 Flash	до 1M	Баланс скорости и интеллекта; «рабочая лошадка» для большинства задач
Текст, код, рассуждения	Gemini 3.1 Flash-Lite Preview	до 1M	Массовые запросы, чат-боты, ASR; максимальная экономия
Текст, код, рассуждения	Gemini 2.5 Pro / Flash	до 1M	Совместимость со старым кодом, если привязаны к конкретной версии
Аудио / голос	Gemini 3.1 Flash Live Preview	realtime	Audio-to-audio (A2A) диалог в реальном времени
Аудио / голос	Gemini 2.5 Flash Live Preview	realtime	Двунаправленные голосовые и видео-агенты с нативным аудио-рассуждением
Аудио / голос	Gemini 2.5 Flash TTS Preview	—	Синтез речи с низкой задержкой
Медиа и агенты	Gemini Omni	мультимодальный	Текст + изображения + видео-вход → видео-выход (I/O 2026)
Медиа и агенты	Gemini 3.5 Flash	—	Быстрый testing/debug/iteration для разработчиков (Ultra $100/200)
Специальные	Project Genie	realtime	Генерация интерактивных миров Genie 3 для Ultra $200
Специальные	Gemini Spark	—	24/7 AI-агент в продуктах Google; US-only Beta для Ultra

Заметка о Gemini 3 Flash/3.5 Flash: это разные поколения. Внешний справочник от апреля 2026 называет «Gemini 3 Flash» как основную модель; на I/O 2026 (19 мая 2026) Google выпустила Gemini 3.5 Flash для Ultra-подписчиков. Для не-Ultra сценариев рабочей лошадкой остаётся линейка Gemini 3.x.

Доступ через API и SDK

Google AI Studio — бесплатный веб-интерфейс для экспериментов. Здесь же получаете API-ключ и сразу начинаете работу. Минимальный вызов через REST:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{"contents": [{"parts": [{"text": "Explain how AI works"}]}]}'

Базовый URL — generativelanguage.googleapis.com/v1beta, аутентификация через заголовок x-goog-api-key.

SDK. Официальные библиотеки для Python, JavaScript/TypeScript, Go, Swift, Dart. Установка для Python:

pip install google-genai

Внимание: раньше пакет назывался google-generativeai (legacy). С 2025 года Google объединила SDK в google-genai — единая точка входа для Gemini API и Vertex AI. Старый пакет ещё работает, но для новых проектов начинайте с google-genai.

Vertex AI — enterprise-платформа в Google Cloud. Это та же модель, но с другим контуром доступа:

Корпоративный SLA и расширенная безопасность.
Provisioned Throughput — гарантированная пропускная способность для продакшна.
Batch prediction — для массовой обработки вне реального времени.
Интеграция с остальными сервисами Google Cloud (BigQuery, GCS, IAM).

Live API — отдельный API для потокового взаимодействия в реальном времени (audio/image/text ↔ audio/text). Используется для голосовых ассистентов, видео-conversation-агентов и любых сценариев, где важна постоянная двусторонняя связь.

Мультимодальность моделей 3.x

Тип входа	Что умеют модели 3.x
Текст	Генерация, анализ, перевод, суммаризация
Изображения	Понимание, описание, генерация (через Gemini 2.5 Flash Image)
Аудио	Распознавание речи (ASR), анализ звука, генерация голоса (TTS — отдельные модели)
Видео	Анализ видеопотока, описание сцен, ответы на вопросы по видео
Код	Генерация, ревью, дебаг, автономный кодинг через Antigravity

Контекстное окно до 1 миллиона токенов позволяет загружать большие документы, длинные видео и аудиозаписи целиком — без предварительного чанкинга.

Когда использовать

Ситуация	Подходит / не подходит	Почему
Длинный документ на 100–800 страниц	Подходит	1M контекста вмещает без чанкинга
Голосовой ассистент с прерыванием голосом	Подходит	A2A в Gemini Live; нативное голосовое рассуждение
Видео-аналитика (распознавание сцен, OCR по видео)	Подходит	Нативный видео-вход; нет нужды в отдельных CV-моделях
Агентный кодинг в реальном времени	Подходит	Antigravity + 1M контекста + Pro-серия
Массовые чат-боты с низкой ценой запроса	Подходит	Gemini 3.x Flash-Lite / 3.5 Flash — экономия
Production с регуляторными требованиями (ФЗ-152, ISO)	Подходит через Vertex AI	Provisioned Throughput, IAM, логирование в Cloud
Команда в России и нужен API из РФ	Не подходит напрямую	Региональные ограничения; нужен корпоративный контур
Нужен on-device инференс на смартфоне	Не подходит	Это облачные модели; для on-device есть Gemma/EmbeddingGemma
Строго лимитированный бюджет на стороне API	Условно подходит	Бесплатный tier ограничен; цены зависят от модели и региона

Пример

Быстрый REST-вызов (cURL)

# Переменные окружения
export GEMINI_API_KEY="ваш_ключ_из_AI_Studio"

# Простой запрос
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [{
      "parts": [{"text": "Объясни разницу между RAG и fine-tuning тремя абзацами"}]
    }]
  }' | jq '.candidates[0].content.parts[0].text'

Ответ приходит в формате candidates[0].content.parts[0].text. Для стриминга используется тот же endpoint с параметром ?alt=sse или stream-метод streamGenerateContent.

Python SDK (google-genai)

from google import genai

client = genai.Client(api_key="ваш_ключ")

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="Расскажи про региональные ограничения Gemini API",
)

print(response.text)

Аудио-вход (мультимодальный запрос)

from google import genai

client = genai.Client(api_key="ваш_ключ")

# Аудиофайл + текстовый вопрос
with open("interview.mp3", "rb") as f:
    audio_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[
        "Сделай саммари этого интервью и выдели три ключевых тезиса",
        {"inline_data": {"mime_type": "audio/mpeg", "data": audio_bytes}},
    ],
)

print(response.text)

Переход с Google AI Studio на Vertex AI

Когда выходите из прототипа в продакшн, обычно переезжаете с бесплатного Gemini API на Vertex AI. Это не «новая модель» — это другой контур доступа и SLA. Главное отличие в коде:

# Google AI Studio — ключ берётся из aistudio.google.com
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

# Vertex AI — ключ берётся из gcloud auth application-default login,
# а регион задаётся явно
client = genai.Client(
    vertex=True,
    project="my-project-id",
    location="us-central1",
)

Дальше работают те же models.generate_content(…) и models.generate_content_stream(…) — менять вызовы под каждую модель не нужно.

Тарифы и лимиты

Подписки приложения Gemini (по состоянию на конец июня 2026, после I/O 2026)

После реструктуризации 19 мая 2026 года линейка приложения стала такой:

Уровень	Цена (USD/мес)	Ключевые отличия
Бесплатный	$0	Доступ к 3.5 Flash и переменный — к 3 Pro; 15 ГБ хранилища
Google AI Plus	~$7.99	Удвоенные лимиты vs Free; видеогенерация; 400 ГБ
Google AI Pro	~$19.99	Квадрированные лимиты; 3 Pro + Deep Search; 5 ТБ; YouTube Premium Lite
Google AI Ultra (стартовый)	$99.99	Лимиты ×5 от Pro; Gemini 3.5 Flash; приоритет Antigravity; 20 ТБ; YouTube Premium
Google AI Ultra (полный)	$200.00	Лимиты ×20 от Pro; Project Genie; расширенные agent-функции; 20 ТБ

Заметка о ценах: для ряда стран (например, ЕС) цифры в евро (€22.99 для Pro, €99.99 / €229.99 для Ultra) — это нормализованные цены региональной выдачи и могут колебаться по курсу.

Что заменили в мае 2026:

Дневные лимиты на количество запросов ушли — теперь compute-used (сложность подсказки) с обнулением каждые 5 часов до еженедельного потолка.
При исчерпании основной модели пользователя автоматически переключают на быструю Flash-модель.
Pro и Ultra могут докупить pay-as-you-go AI credits для Antigravity, Google Flow и скоро Gemini-приложения.

Gemini API для разработчиков

Параметр	Значение
Бесплатный tier	Есть: ограниченный доступ к части моделей, free input на момент запуска
Платный tier	Prepaid / pay-as-you-go; цены зависят от модели
Аутентификация	API-ключ через x-goog-api-key; в Vertex AI — gcloud auth + регион
Документация	https://ai.google.dev/gemini-api/docs/pricing

Стартовать можно без карты: в AI Studio выдаётся ключ с лимитами на бесплатный tier. Когда упираетесь в лимиты или нужен SLA — открываете billing-аккаунт (Stripe по карте или Cloud Billing через Google Cloud).

Региональные ограничения

Веб-приложение Gemini — доступно в 230+ странах на 70+ языках.
Мобильное приложение и Gemini Live — в 150+ странах.
Google AI Studio и Gemini API — доступны не во всех регионах. Россия не входит в список поддерживаемых стран для API. Полный список — на странице Available regions.
Vertex AI — привязан к регионам Google Cloud; модельный ряд шире там, где регион активен.
Gemini Live на десктопе — пока ограничен по географии (преимущественно США).
При использовании VPN — возможны блокировки аккаунта при резкой смене геолокации (смена IP в течение одной сессии, подозрительный паттерн).

Практический вывод: если вы в России и нужен именно Gemini API напрямую, самый чистый путь — корпоративный Google Cloud через юрлицо в поддерживаемой юрисдикции либо работа через посредника (MCP-прокси, агрегаторы вроде OpenRouter). Личный ключ в РФ-аккаунте не активируется.

Сравнение с GPT и Claude

Параметр	Gemini 3.1 Pro	GPT-5.4 (OpenAI)	Claude Opus 4.6 (Anthropic)
Контекст	1M токенов	400K токенов	1M токенов
Мультимодальность	Текст, изображения, аудио, видео	Текст, изображения, аудио	Текст, изображения
Голосовой режим	Gemini Live (A2A)	Voice Mode	Нет нативного
Сильные стороны	Скорость, мультимодальность, контекст	Универсальность, экосистема	Качество текста, рассуждения, код
Слабые стороны	Региональные ограничения API	Меньше контекст	Нет нативного голоса и видео

«Лучшей модели» не существует — выбор зависит от задачи. Gemini лидирует по скорости и мультимодальности, Claude — по качеству текста и кода, GPT — по ширине экосистемы и универсальности.

Инсайт: если проект уже сидит в экосистеме Google — выбирайте Gemini: меньше трения с аутентификацией, ближе интеграция с Drive/Docs/Sheets, удобнее AI Inbox и Daily Brief. Если нужен лучший текст и код — берите Claude Opus. Если нужен широкий выбор моделей в одном API и зрелая агентная инфраструктура — GPT.

Ограничения

Что учитывать

Региональный барьер — Gemini API недоступен в РФ напрямую:

нужен корпоративный контур в поддерживаемой юрисдикции или посредник.

Compute-based лимиты

простой текст тратит мало квоты, видео и длинные код-сценарии расходуют её быстро; еженедельный потолок пересчитывается каждые 5 часов.

Авто-fallback при исчерпании

при упирании в лимит Pro/Flash-модели приложение автоматически переключает вас на Flash-Lite; поведение в API задаётся явной ротацией моделей.

Vertex AI ≠ Gemini API

это разные контуры с разной аутентификацией, регионами и SLA; миграция требует смены эндпоинта и проекта.

Переходные версии Flash

линейка 3.x уже соседствует с 3.5 Flash; закрепляйте конкретный ID модели в проде (gemini-3-flash-preview), а не имя семейства.

Цены зависят от региона

для ЕС цифры отличаются от USD-тарифа; при планировании бюджета проверяйте локальную выдачу.

Live API ещё молодой

лучше всего работает для коротких voice-циклов; для длинных диалогов подходит Flash-Live Preview, а не обычные модели.

Антипаттерны

Чего не делать

Не выбирайте Pro для массового чат-бота

для большого RPS-сервиса возьмите Flash-Lite или 3.5 Flash; Pro-серия дорогая и медленная на нагрузке, не соответствующей её сильным сторонам.

Не храните API-ключ в клиентском коде

для фронтенда проксируйте через свой backend; ключ из AI Studio имеет квоту на платный tier при компрометации.

Не передавайте чувствительные данные без review

Google обещает не использовать ввод на Free/Pro tier для обучения, но для строгих данных (PII, медицина, финансы) используйте Vertex AI с явным DPA.

Не делайте 1M-контекст по привычке

стоимость и задержка растут даже на Flash; для большинства задач 100–200K достаточно, остальное держите в RAG-индексе.

Не игнорируйте compute-based лимиты

старые скрипты «считают запросы» сломаются; пересчитайте квоту по сложности и переобновите сценарии, которые раньше укладывались в «запросы в день».

Не подключайте видео без inline_data со стороны parts — большинство SDK ждёт структуру contents=[text, {“inline_data”:

{…}}], а не «голый» URL; иначе упадёт на валидации запроса.

Не сравнивайте Pro и GPT по первым 5 минутам

первый запрос к Pro может быть холодным (cold-start ~1–2 секунды); замеряйте медианную задержку за десятки запросов.

Чеклист

Проверка перед запуском

Регион проверен

убедились, что API доступен в вашей юрисдикции; для РФ — настроен корпоративный обходной путь.

Ключ в секрет-менеджере

GEMINI_API_KEY лежит в env/secret store, а не в коде и не в репозитории.

Модель зафиксирована

выбранный model (например, gemini-3-flash-preview) прописан в конфиге, а не в коде вызова.

Лимиты выставлены на клиенте

safety_settings, generation_config.max_output_tokens и temperature задаются явно.

Compute-based квота учтена

для длинных видео и сложных код-агентов заложен запас по еженедельной квоте.

Стоимость посчитана

для прод-нагрузки пересчитали стоимость в USD/1K запросов при выбранной модели и объёме контекста.

Телеметрия включена

логируем токены (input/output), задержку, ID запроса для разбора спорных случаев через Cloud Logging или собственный backend.

Fallback-модель прописана

на случай исчерпания квоты или таймаута — явная ротация на Flash-Lite с тем же форматом ответа.

Ссылки

Документация: Gemini API — документация
Playground: Google AI Studio
Vertex AI: Модели Gemini
Live API: Gemini Live API
Тарифы: Gemini Developer API pricing
Регионы: Available regions
Блог Google: Google AI subscriptions — что нового на I/O 2026
Обзор: Gemini Live — overview

Продолжить тему

Материалы, которые связаны с этим разбором

Подборка строится по общим тегам, чтобы следующий шаг был связан с текущим контекстом.

Все по теме

База знаний 29 июня 2026 г.

EmbeddingGemma: 200 МБ модель, которая запускает RAG там, где сервер не помещается

Открытая 308M embedding-модель от Google DeepMind: 768-мерные векторы с MRL-усечением до 128, контекст 2048, ~200 МБ RAM. Когда она лучше BGE-M3 и как поднять её локально — Ollama, sentence-transformers и systemd-юнит.

#ИИ #Инструменты #llm #выбор-моделей #RAG

База знаний 29 июня 2026 г.

Почтовый агент: как подключить AI к отдельному ящику и не сломать безопасность

Практический разбор подключения AI-агента к отдельному почтовому ящику: Google Workspace, Microsoft 365, Яндекс 360, Cloudflare Email Service, helpdesk и unified API. Схемы, OAuth-нюансы, юридические стоп-линии и MVP на одном адресе.

#ai-агенты #api #API и данные #безопасность #Методология

База знаний 27 июня 2026 г.

Telegram-бот для бизнеса: точка входа, которая передаёт данные дальше, а не держит их у себя

Что именно умеет Telegram-бот для бизнеса без сложной разработки: приём заявок, инбокс, уведомления, формы и трекеры. Где проходит граница между ботом и системой, и почему бот не должен хранить данные внутри себя.

#Автоматизация #api #архитектура #Инструменты #ИИ

Виталий Воробьев

Больше практики по ИИ в Telegram

Короткие разборы, промпты и кейсы появляются в канале раньше сайта.

Открыть канал Написать в Telegram

Что это

Зачем нужно

Как устроено

Доступ через API и SDK

Мультимодальность моделей 3.x

Когда использовать

Пример

Быстрый REST-вызов (cURL)

Python SDK (google-genai)

Аудио-вход (мультимодальный запрос)

Переход с Google AI Studio на Vertex AI

Тарифы и лимиты

Подписки приложения Gemini (по состоянию на конец июня 2026, после I/O 2026)

Gemini API для разработчиков

Региональные ограничения

Сравнение с GPT и Claude

Ограничения

Региональный барьер — Gemini API недоступен в РФ напрямую:

Compute-based лимиты

Авто-fallback при исчерпании

Vertex AI ≠ Gemini API

Переходные версии Flash

Цены зависят от региона

Live API ещё молодой

Антипаттерны

Не выбирайте Pro для массового чат-бота

Не храните API-ключ в клиентском коде

Не передавайте чувствительные данные без review

Не делайте 1M-контекст по привычке

Не игнорируйте compute-based лимиты

Не подключайте видео без inline_data со стороны parts — большинство SDK ждёт структуру contents=[text, {“inline_data”:

Не сравнивайте Pro и GPT по первым 5 минутам

Чеклист

Регион проверен

Ключ в секрет-менеджере

Модель зафиксирована

Лимиты выставлены на клиенте

Compute-based квота учтена

Стоимость посчитана

Телеметрия включена

Fallback-модель прописана

Ссылки

По теме

Больше практики по ИИ в Telegram