Модели, цены, env vars и зависимости

Все AI-модели, которые трогает пайплайн, плюс типичная стоимость пайплайн-прогонов, env-переменные и список локальных зависимостей. Если что-то не запускается — первое, что проверять: env и dependencies.

AI-модели в системе

МодельГде используетсяUse caseЦена
gemini-3-pro-image-preview
aka nano-banana-pro
creative-poster Основная модель для постеров: text→image с brand-context, multi-shot referencing $0.04 base
$0.08 outpaint
gemini-3.1-flash-image-preview creative-poster Fallback быстрее основной — для batch'ей где speed > quality $0.02-0.04
gemini-2.5-flash-image creative-poster Fallback fastest для draft-уровня (quick-mode orchestrator'а) $0.01-0.02
gemini-2.5-flash carousel, explainer Text-planning: бриф → JSON-план слайдов/сцен $0.0001 / call
gemini-2.5-flash (Vision) creative-poster QA QA review постеров: типы, layout, brand-fit, score 1-10 $0.001 / review
Google Veo 3.1 (Lite/Fast/Quality) video-clipgen (direct) Generative video clips для рекламы (9-30 сек) из текстового бриф + reference photos $0.15-2.00 / 5s
детали ниже ↓
ElevenLabs eleven_multilingual_v2 voiceover, explainer TTS: text → mp3, поддерживает RU/KZ/EN/UK с auto-detect языка $0.18 / минуту аудио
Whisper (local) captions, screencast Транскрипция аудио → word-level timestamps для karaoke-субтитров и dedupe-takes $0 (локально)
faster-whisper captions Альтернатива Whisper, быстрее на CPU, точность сравнима $0 (локально)

🎬 Видео-провайдеры — расценки (действующие, май 2026)

Нормализовано на 5-секундный клип 720p (наш типичный размер для Reels). Direct = подключено напрямую у провайдера. Через Higgsfield = доступно по нашей ultra-подписке ($199/мес, 3010 credits).

МодельДоступ$/сек5-сек клипСтатус у нас
Veo 3.1 Lite Google Vertex AI / Gemini (direct) $0.03–0.05 $0.15–0.25 🏆 дешевле всех video-clipgen (direct)
Veo 3.1 Fast Google Vertex AI (direct) $0.10–0.15 $0.50–0.75 ✅ video-clipgen (direct)
Veo 3.1 Quality Google Vertex AI (direct) $0.20–0.40 $1.00–2.00 ✅ video-clipgen (direct)
Kling 3.0 Standard klingai.com (Kuaishou, direct) $0.084 $0.42 🟡 сейчас только через Higgsfield ($0.63)
Kling 3.0 Pro klingai.com (direct) $0.168 $0.84 🟡 через Higgsfield
Seedance 2.0 Volcengine / BytePlus Ark (direct) ~$0.14 ~$0.70 🟡 через Higgsfield ($0.63 — ≈ как direct)
Seedance 2.0 1080p BytePlus Ark (direct) ~$0.186 ~$0.93 — опция

Через Higgsfield (ultra-plan credits, ~$0.063/credit)

Модель (model_id)Credits5-сек клипЛучше всего для
cinematic_studio_video_v27.5cr$0.47Premium product orbit/push-in (дефолт)
cinematic_studio_3_0~15cr$0.94Newest Cinematic Studio, hero shots
kling3_0~10cr$0.63Product orbits, smooth motion, texture
wan2_7~12cr$0.75Best physics, complex motion
seedance_2_0~10cr$0.63Good motion variety (UGC)
soul_cast~15cr$0.94Talking head + Soul-ID
veo3_1~25cr$1.56⚠️ в 6× дороже direct Veo — гони через video-clipgen
veo3_1_lite~18cr$1.13⚠️ в 5× дороже direct ($0.15-0.25) — НЕ через Higgsfield
Правило по видео: Veo всегда гоним напрямую (video-clipgen) — через Higgsfield он в 5-7× дороже. Higgsfield бережём для того, чего у Veo direct нет: Soul-ID (face consistency) и Cinematic Studio camera moves (orbit/vertigo/FPV). Kling напрямую (klingai.com) дешевле Higgsfield в ~1.5× — кандидат на развязку. Seedance напрямую ≈ как через Higgsfield — развязывать только ради независимости от подписки.

🖼️ Фото / Image-провайдеры — расценки (действующие, май 2026)

МодельДоступЦена / изображениеСтатус у нас
gemini-3-pro-image (nano-banana-pro) Google (direct) $0.04 base / $0.08 outpaint creative-poster (дефолт для статики)
gemini-3.1-flash-image Google (direct) $0.02–0.04 ✅ creative-poster (fallback)
gemini-2.5-flash-image Google (direct) $0.01–0.02 ✅ creative-poster (draft/quick)
Через Higgsfield (ultra-plan credits)
text2image_soul_v2 Higgsfield ~3cr / $0.19 (поддерживает Soul-ID avatar) higgsfield — photoreal портреты с лицом аватара
soul_cinematic Higgsfield ~3cr / $0.19 (Soul-ID) ✅ editorial-портреты
nano_banana_2 (Nano Banana Pro) Higgsfield ~4cr / $0.25 ✅ higher-quality Nano
flux_2 Higgsfield ~2cr / $0.13 ✅ general-purpose
gpt_image_2 Higgsfield ~5cr / $0.31 ✅ OpenAI image model
seedream_v5_lite Higgsfield ~3cr / $0.19 ✅ latest Seedream
Правило по фото: статика по умолчанию через Gemini 3 Pro Image ($0.04 — дешевле и гибче на refinement). Higgsfield image берём только когда нужен Soul-ID (лицо нашего аватара на фото) — единственное чего Gemini не умеет. Product-photoshoot 10 modes тоже по умолчанию Gemini (см. creative-orchestrator).

Типичные пайплайн-цены

СценарийЧто включеноСтоимость
1 video ad (15-30 сек) copywriter + voiceover (~30 сек) + 3-5 Veo clips + director + captions $5-15
Poster batch (6 вариантов × 2 аспекта) 6 base + 6 outpaint + 12 QA + ~1.3 refine $0.78
7-слайдовая carousel plan.py × 1 (Gemini Flash) + 7 × Remotion still (локально) $0.0001
3-минутный explainer (кейс-стади) plan.py + 7 VO × ~25 сек (~3 мин audio) + Remotion render ~$0.55
Quick draft poster (без QA, без outpaint) 1 generation 4:5 $0.04
Полный конвейер: 3 video ads + 5 posters + 1 carousel + 1 explainer ~$25-50 + $0.78 + $0 + $0.55 ~$30-55

Higgsfield AI NEW · May 2026

Model IDЧтоЦенаUse case
higgsfield/soul/text-to-imageSoul photoreal text→image$0.09 (720p) / $0.19 (1080p)Hero shots, character portraits
higgsfield/soul/image-to-imageSoul style transfer / refine$0.19Brand-style на существующее фото
higgsfield/dop/image-to-video/liteDoP fast 5s clip$0.125Iteration / preview
higgsfield/dop/image-to-video/turboDoP 2× speed$0.406Default для production
higgsfield/dop/image-to-video/previewDoP premium quality$0.563Hero shots / финальный креатив
higgsfield/speech-to-videoLip-sync character video$0.86-4.22Talking-head spokesperson
+ Sora 2, Kling 3.0, Wan 2.6, Seedance, Veo 3, Nano BananaЧерез тот же APIvariesДоступно через Higgsfield подписку
Setup: pip install higgsfield-client. Env vars HF_API_KEY + HF_API_SECRET от platform.higgsfield.ai. Также принимает combined HF_KEY. Per-project через api_keys.db ключи HIGGSFIELD_API_KEY и HIGGSFIELD_API_SECRET. Подробно про скилл: video-clipgen-higgsfield.

Env vars

ПеременнаяОбязательнаяГде нужна
GOOGLE_API_KEY да Все Gemini-вызовы: posters, QA, planning, Veo
ELEVENLABS_API_KEY да voiceover, explainer
FB_GRAPH_ACCESS_TOKEN
(или META_ACCESS_TOKEN)
опц. creative-orchestrator perf-import — без неё нельзя тянуть Meta Insights

Прописать в shell rc

# ~/.zshrc (или ~/.bash_profile)
export GOOGLE_API_KEY="AIzaSy..."
export ELEVENLABS_API_KEY="sk_..."
export FB_GRAPH_ACCESS_TOKEN="EAA..."   # опционально

После правки — source ~/.zshrc или перезапустить terminal/Claude Code session.

API-key auto-resolution

Скиллы умеют доставать ключи по приоритету (от высокого к низкому):

  1. --api-key <value> — флаг в командной строке (highest precedence, для тестов)
  2. ~/video-projects/<project>/api_keys.db — per-project sqlite БД с ключами (если разные проекты используют разные аккаунты)
  3. os.environ[...] — env-переменная (дефолтный путь)
Логика per-project keys. Если в проекте есть api_keys.db (создаётся через project-setup при онбординге) — скилл сначала смотрит туда, потом fallback в env. Это удобно когда у клиентов разные Google Cloud аккаунты или разные ElevenLabs кабинеты.
Где живёт auto-resolver: в каждом скилле есть scripts/api_keys.py с одинаковой логикой (общий sof — копия одинакова между скиллами).

Локальные зависимости

System (macOS)

ДepЗачемУстановка
ffmpegvideo assembly, captions burn-in, music ducking, audio probing, bg-music mixbrew install ffmpeg
node 18+Remotion CLI для carousel и explainerbrew install node (или nvm)
python 3.9+Все скрипты скилловbrew install python@3.11 (или asdf/pyenv)
npmУправление Remotion deps в per-project appsидёт с node
sqlite3Просмотр БД из CLIпредустановлен в macOS

Python packages

pip install \
  google-genai \              # Gemini API client (posters, planning, QA)
  pillow \                    # image processing
  pyyaml \                    # brand.yaml / preset.yaml / project.yaml
  mutagen \                   # длительность mp3 для VO-sync
  elevenlabs \                # TTS client
  openai-whisper \            # транскрипция (или альтернатива ниже)
  faster-whisper              # CPU-оптимизированная альтернатива
Whisper vs faster-whisper. Если у тебя M1/M2 Mac — faster-whisper работает быстрее (~3x) и точность сравнима. На Intel — стандартный openai-whisper надёжнее. Captions-скилл подхватывает любой из них.

Node packages (внутри per-project Remotion apps)

Управляются автоматически через npm install при init_project.py. Внутри package.json шаблона:

{
  "dependencies": {
    "remotion": "^4.0.0",
    "@remotion/cli": "^4.0.0",
    "@remotion/bundler": "^4.0.0",
    "@remotion/renderer": "^4.0.0",
    "react": "^18.0.0",
    "react-dom": "^18.0.0"
  }
}

Для explainer-видео могут подключаться @remotion/motion-blur, @remotion/three, @remotion/lottie — но это уже опционально и подтягивается под конкретные сцены.

Чек-лист «не запускается»

СимптомЧто проверить
GOOGLE_API_KEY not setecho $GOOGLE_API_KEY в shell + что shell rc подгружен в Claude Code session
ElevenLabs 401квота не кончилась? ключ не deactivated в кабинете?
ffmpeg not foundwhich ffmpeg — если пусто, brew install ffmpeg
npx remotion не работаетnode-версия — node -v, должна быть ≥18; npm install в проекте проходил?
Whisper «No module named 'whisper'»pip install openai-whisper или faster-whisper
«no module named google.genai»pip install google-genai (НЕ google-generativeai — это старая SDK)
FB_GRAPH_ACCESS_TOKEN missing при perf-importэкспортнуть в env, токен живёт ~60 дней — может протух
429 Too Many Requests от Gemini Imageуменьшить параллельность; orchestrator кулдаун 35 сек дефолт; не запускать одновременно несколько батчей

Cost-control tips

Quick mode перед run. Если экспериментируешь со стилем для нового проекта — гоняй orchestrator quick ($0.04 на постер). Full run ($0.78) запускай только когда определился со стилем.
Carousel ничего не стоит. $0.0001 — это шум. Можно генерить хоть 100 итераций carousel'а без оглядки на бюджет (всё локально через Remotion).
Veo дорогой. $0.50-1.50 на клип, в одном видео 3-5 клипов. На video ad batch (3-5 роликов) можно за день уложить $20-50. Если генеришь reference-материал — лучше один раз нагенерить library и переиспользовать.
ElevenLabs — следи за месячным лимитом. На Creator-плане ~250k символов/мес. Один 3-минутный explainer = ~3000 символов. Хватит на ~80 explainer'ов или ~500 коротких video ads. На больший объём — Pro/Business.
Whisper бесплатный. Хоть 1000 транскрипций в день — нулевая стоимость API. Только CPU-время.