
Смотрел keynote Google I/O и, признаться, удивился. Не потому что показали что-то радикально новое. А потому, что не показали то, чего все ждали.
Ни Gemini 4, ни супердешёвого Flash за $0.25 за миллион токенов в новой линейке (хотя Gemini 3.1 Flash-Lite уже предлагает этот тариф). Google умудрился сделать анонс, где главная новость — это отсутствие главной новости. И при этом заложил фундамент для того, как мы будем работать с AI в ближайшие 18 месяцев.
Что было на сцене (и что не было)
Ждали:
- Gemini 4 с 10-миллионным контекстом
- Дешёвый Flash за четверть цента за миллион
Получили:
- Gemini 3.5 Flash — быстрее в 4 раза, но в 3 раза дороже предыдущего поколения
- Gemini Flash-Lite — ультрабюджетная модель за $0.25 за миллион токенов, уже доступная
- Gemini Spark — облачный агент, который живёт в ваших Google Docs и пишет отчёты, пока вы спите
- Gemini Omni — генеративная “модель мира” для создания коротких видео до 10 секунд с синхронизированным звуком
- 900 миллионов MAU в Gemini App (с 400М год назад)
И самое главное — цифру, которую никто не комментировал: 3.2 квадриллиона токенов в месяц на инференсе. Это в 7 раз больше, чем год назад. Google не просто строит модели — он строит фабрику.
Почему подорожание Flash — это на самом деле подешевление
Сначала я подумал: “$1.50 за миллион входных токенов? Это в три раза больше, чем старый Flash Preview. Google сошёл с ума?”
А потом посмотрел на цифры повнимательнее.
Gemini 3.1 Pro стоит $2.00/$12.00. Новый Flash — $1.50/$9.00. То есть он на 25% дешевле Pro, при этом в 4 раза быстрее на агентских задачах.
Практический вывод: если ваш агент делает 10 шагов цикла (подумал → запросил данные → обработал → ответил), разница в скорости превращается в разницу в деньгах. Потому что время — это не только UX. Это стоимость аренды железа, задержки в цепочке, количество одновременных пользователей, которых вы можете обслужить на одном инстансе.
Я сам проходил через это. В одном из первых коммерческих проектов мы использовали GPT-4 — умел хорошо, но пользователи ждали по 8-12 секунд ответа. 40% отваливались на третьем вопросе. Переход на более быструю модель поднял удержание до 78%. С Gemini 3.5 Flash эта цифра может вырасти ещё — но не потому что модель «умнее», а потому что она не заставляет ждать.
Gemini Spark: когда агент перестаёт быть чатом
Вот что меня по-настоящему зацепило.
Spark — это не ассистент, которому вы пишете в чат. Это облачный агент, который:
- Сидит в ваших Google Docs, Sheets, Calendar, Gmail
- Работает 24/7 без вашего участия
- Использует тот же runtime, что и Google Antigravity (их coding-агент)
- Доступен подписчикам AI Ultra в США ($100/мес), а также корпоративным клиентам Gemini Enterprise и Workspace
Представьте: вы ложитесь спать, а агент обрабатывает 47 входящих писем, обновляет таблицу по проекту, и к утру готовит вам сводку с тремя вариантами решений по спорному вопросу.
Это не «помощник». Это сотрудник без оклада, без больничных, без обеденных перерывов.
Но ведь агент ошибётся? Предложит красивое решение, которое сломает всё?
Конечно ошибётся. Именно поэтому Spark — это не замена человека, а новый слой в организации. Человек остаётся редактором смысла. Но рутина уходит в инфраструктуру.
Gemini Omni: генерация видео, а не анализ
Omni — генеративная “модель мира” (world model), которую Google анонсировал вчера. Пока доступна подписчикам Plus, Pro и Ultra в приложении Gemini и Google Flow, а также бесплатно для создателей контента в YouTube Shorts и YouTube Create. API для разработчиков — в ближайшие недели.
Чем это отличается от генерации картинок? Omni создаёт короткие видеоролики до 10 секунд с синхронизированным звуком, а не просто статичные изображения. Это специализированная генеративная модель для интерактивного редактирования видео.
Для тех, кто строит системы под ключ — это новый инструмент в наборе. Не замена существующим пайплайнам, а дополнительный слой, который можно включать, когда клиенту нужна генерация видеоконтента.
Инфраструктура как продукт
Самый скучный слайд вчерашнего keynote — и самый важный.
Google прошёл от 480 триллионов токенов в месяц до 3.2 квадриллиона. Это не просто «много». Это означает, что компания может позволить себе эксперименты, которые другим съедят бюджет за неделю.
Практический вывод: если вы выбираете инфраструктуру для клиента — Google становится всё более безопасным выбором. Не потому что лучше. А потому что стабильнее. У них есть запас прочности, который позволяет пережить плохие кварталы без повышения цен или урезания API.
Что это значит для тех, кто строит системы
Я вижу три сценария:
- Для продуктовых команд: Gemini 3.5 Flash — рабочая лошадка. Быстрая, дешевле Pro, достаточно умная для 80% задач. Если вы ещё не тестировали — пора.
- Для enterprise: Spark — сигнал, что Google всерьёз берётся за автоматизацию рутины. Это не про «поиграться», это про «сэкономить 12 часов в неделю на одном сотруднике».
- Для консультантов: Omni открывает новую нишу — видеогенерация. Контент-маркетинг, реклама, превью. Всё, что раньше требовало студии, теперь можно делегировать агенту.
А в цифрах?
| Что | Было | Стало |
|---|---|---|
| Цена Flash (input) | $0.50/M | $1.50/M |
| Цена Flash (output) | $3.00/M | $9.00/M |
| Цена Flash-Lite (input) | — | $0.25/M |
| Скорость vs frontier | 1x | 4x |
| Цена vs Pro | Flash дешевле | Flash на 25% дешевле Pro |
| MAU Gemini App | 400M | 900M |
| Инференс/месяц | 480T токенов | 3.2 квадриллиона |
Итог
Google не выпустил ту модель, которую ждали. Зато показал, куда движется индустрия: агенты становятся инфраструктурой, скорость важнее размера контекста, а стабильность поставщика — критическим фактором выбора.
Я ошибался, думая, что главное в этом году — это «ещё одна большая модель». Оказалось, главное — это как модель встраивается в рабочий контур.