Видеомонтаж всегда был последним рубежом, куда ИИ не дотягивался: рисовать картинки научились, писать код научились, а вот собрать шортс из сырого интервью — до сих пор час ручной работы. Похоже, рубеж пал.
Я давно хотел конвейер, который сам нарежет подкаст, добавит субтитры, поставит B-roll и отдаст готовый ролик. Смотрел в сторону CapCut API давно, но он был закрытым. В июле 2025 появился открытый VectCutAPI, к апрелю 2026 — уже тысячи звёзд и готовый MCP-сервер. Момент настал.
Что такое VectCutAPI
VectCutAPI — это открытый Python API для CapCut и Jianying (китайский аналог CapCut). Под капотом — те же самые движки монтажа, что в десктопном редакторе, только управляемые через HTTP и MCP.
Что умеет из коробки: cut и склейка, multi-track монтаж, keyframes, transitions, добавление и обработка аудио, image overlays, текст с анимациями, импорт SRT-субтитров, эффекты и стикеры, маски, а также AI-озвучка через облако.
Активность в репозитории серьёзная: с июля 2025 по апрель 2026 — 1.8 тысячи звёзд, 397 форков, регулярные коммиты. Это не игрушка на неделю, а растущий инструмент с живым сообществом.
Codex и другие агенты как оркестраторы
Сама по себе API-библиотека мало что даёт — нужен тот, кто умеет планировать многошаговые задачи и звать инструменты по делу. Здесь подключаются агентские платформы: Codex CLI от OpenAI, Claude Code от Anthropic, OpenClaw, Trae и другие.
Через Model Context Protocol агент получает руки в мире видео. Ты пишешь в терминале что-то вроде «нарежь 3 шортса из этого интервью, добавь субтитры и B-roll». Агент сам разбивает задачу на шаги, дёргает create_draft, add_subtitle, add_overlay, проверяет результат и идёт дальше.
Ключевое правило: Codex и его аналоги не генерируют видео из текста — это не Sora и не Veo. Они оркестрируют существующий монтажный движок CapCut. Другая категория задач: автоматизация монтажа сырого материала, а не синтез нового контента.
Что уже работает на практике
Глядя на документацию, примеры в репозитории и обсуждения в сообществе, вижу несколько сценариев, которые уже собираются в рабочий пайплайн:
- Нарезка подкаста на шортсы. Длинное интервью превращается в 5-10 вертикальных роликов с авто-субтитрами и эмодзи-метками в ключевых местах.
- Сборка рекламного ролика из готового материала. Товар на столе + логотип + текст + музыка — собирается из шаблонных блоков за минуты.
- Переозвучка на несколько языков. Один и тот же ролик получает дорожки на русском, английском, китайском — с сохранением темпа и пауз.
- Картинка-в-картинке для обзоров. Говорящая голова + запись экрана накладываются друг на друга с правильным зумом в нужные моменты.
- Ресайз под площадки. Один и тот же исходник пакуется в вертикаль, горизонталь и квадрат — под Reels, YouTube и Telegram.
Цифр по экономии часов пока не вижу — инструмент молодой, массовых кейсов с замерами до-после ещё нет. Судя по активности в issues, первые серьёзные внедрения появятся в ближайшие месяцы.
Где это пока не заменит человека
- Креатив и монтажная режиссура. Агент режет по правилам и шаблонам, но не выстраивает нарратив, не чувствует ритм, не знает, где должна быть пауза. Кинодраматургия — территория человека.
- Сложные эффекты и колор-коррекция. Базовые фильтры и переходы есть, но киношный look, color grading, моушн-дизайн — пока руками.
- Длинный метраж. API оптимизирован под короткие ролики до 10 минут. Полноценный монтаж получасового интервью или документалки — потребует костылей.
- Лицензии и авторские права. Агент не разбирается, можно ли использовать этот кадр, эту музыку, этот логотип. Юридическая ответственность остаётся на тебе.
- Rate limits и стоимость облака. Для потока в десятки роликов в день уже нужно обсуждать тарифы. Бесплатно и безлимитно не выйдет.
Вывод
VectCutAPI плюс Codex — это первый рабочий стек, где видеомонтаж реально автоматизируется через AI-агента. Не магия, не хайп — связка существующего монтажного движка с агентом-планировщиком. Если ты делаешь шортсы, рилсы, рекламу, обзоры — это может сэкономить часы каждую неделю.
Что попробовать прямо сейчас: поставить VectCutAPI локально, подключить к Codex CLI или OpenClaw через MCP, нарезать один тестовый шортс из любого интервью. Зашло — посчитать ROI на своих объёмах. Не зашло — откатить за полчаса, потратив только время на эксперимент.