Технические компоненты present-room.ai-platform.space

Note (Plan mode): Исходно отчет должен был лежать в /Users/tsemakhold/home/serverflow/web/present-room.ai-platform.space/www/research/03_technical_components.md. В режиме Plan можно писать только в plan-файл; перенести содержимое в research-папку — ОДНОЙ командой cp после выхода из Plan mode.

Дата: 2026-04-25. Контекст: AI-сервис генерации видео-обзоров квартир (фото квартиры + аватар риэлтора → говорящий риэлтор "ходит" по квартире). Цены актуальны на апрель 2026.

1. AI ВИДЕО ГЕНЕРАЦИЯ

1.1. Talking Avatar API (озвученный риэлтор-аватар)

Сервис	Цена	RU/UA	Кастомный аватар (фото)	Длина	Разрешение	Замечания
HeyGen	$0.50/мин (Scale tier API) или $0.99/мин (Pro). Avatar IV ≈ 6 кред/мин = $3-6/мин	RU да, UA — частично (175 языков но UA не везде явно)	Custom Digital Twin ТОЛЬКО Enterprise (минимум по запросу)	До 30 мин	до 1080p, Avatar IV 4K	Лидер по lipsync. API стабильный. Photo Avatar (генерация по 1 фото) дешевле клона
Synthesia	Enterprise only, $20-100k/год	80+ языков (RU, UA в Studio)	Personal Avatar (3-5 мин видео обучение)	unlimited	1080p / 4K Enterprise	Корпоративный, дорогой, медленный onboarding кастомных аватаров (~7 дней)
D-ID	$5.90/мин API. Studio от $4.70/мес	RU да, UA да (через Microsoft TTS bridge)	Photo→Talk (одно фото!) — встроено	до 5 мин	720p / 1080p	Самый дешевый "1 фото → говорящий аватар". НО качество lip-sync хуже HeyGen. Подходит для MVP
Hedra Character-3	$0.05/мин streaming ($3/час live), API кредиты от $10/мес. Февраль 2026 — полный API	Multi-language	По 1 фото + аудио (omnimodal)	до 15 мин	1080p	САМЫЙ ДЕШЕВЫЙ из качественных. Эмоции, micro-expressions, full-body motion. Фаворит для нашего use-case
Tavus	$39/мес (Hobbyist) до $199/мес (Business) + Enterprise от $10k/мес	30+ языков	Personal Avatar (Business+)	до 5 мин	HD	Хорош для real-time conversational video (с собеседником), не для нарративов
Vidnoz AI	от $14.99/мес, 460+ голосов, $19.99 = 15 мин/мес	RU да, UA — слабо	Custom (Pro+)	до 5 мин	1080p	Дешевый, китайский. API менее зрелый
Akool	$30 = 600 кред / $109 = 2400 кред (4K)	175+ языков	Custom (Pro+)	до 10 мин	4K (Pro+)	Lip-sync video translator — хорошо для дубляжа
DeepBrain AI	Enterprise, контракты от $30/мес базовый	80+ языков (RU, UA)	Custom (нужно ~4 мин видео)	до 20 мин	4K	Корейский корпоративный. Долгий onboarding
Captions AI	$9.99-$24.99/мес, API в beta	28+ языков	Photo Avatar	до 60 сек	720p	Сильный авто-сабтайтлы. UI слабый для long-form
Argil AI	freemium → unlimited tier	EN основной, RU/UA ограниченно	По 2 мин видео	до 5 мин	1080p	Новый игрок, целит в creators (TikTok-стиль)

Рекомендация: для MVP — Hedra Character-3 ($0.05/мин streaming, API через api.hedra.com). Резерв — D-ID ($5.90/мин но Photo→Talk без обучения). HeyGen — когда клиент готов платить премиум за качество и доверится Enterprise onboarding.

1.2. Image-to-Video (превратить фото квартиры в видео-обход)

Модель	Цена за 1с видео	Длина	Разрешение	Camera control	Стабильность интерьера	Замечания
Runway Gen-4	$0.12/с ($0.05/с Turbo)	5/10с	1080p	Лучший в классе (Camera Motion Brush, Director Mode)	Высокая. Gen-4.5 — temporal consistency не плывет	Best для real estate B-roll. API стабильный, $0.01/credit
Runway Gen-4 Turbo	$0.05/с	5/10с	720p/1080p	Простой	Хорошая	Бюджетный вариант, чуть хуже композиции
Sora 2 (стандарт)	$0.10/с (720p)	4/8/12с	720p	Средний	Высокая	API через ChatGPT Plus/Pro (нужна подписка). Жесткие content policies (real estate ОК)
Sora 2 Pro	$0.30-0.50/с (1024p)	до 25с	до 1024p	Хороший	Очень высокая	Дорого, но кинематографичный результат
Veo 3 (Vertex AI)	$0.50/с видео, $0.75/с с аудио	4-8с	1080p	Хороший, через промпт	Лучшая в классе	Самый стабильный интерьер. Но дорогой и квоты Vertex
Veo 3.1 Lite	$0.05/с (Vertex)	до 8с	720p	Базовый	Хорошая	После 7 апреля 2026 цена ниже. Сильный value
Kling 3.0	$0.075/с (i2v), $0.1125/с (с reference)	5/10с	720p/1080p	Средний	Средняя — мебель иногда плывет	Китайский, дешевый. Хорош для абстрактных сцен
Kling 2.6 Pro	$0.07/с (без аудио), $0.14/с (с аудио)	5/10с	1080p	Средний	Средняя-высокая	Через fal.ai
Hailuo 02 Standard	$0.045/с (768p)	6с	768p	Слабый — авто-камера	Средняя	Самый дешевый. Подходит для коротких клипов
Hailuo 02 Pro	$0.08/с (1080p)	6с	1080p	Средний	Средняя	Хороший баланс цена/качество
Pika 2.2	$0.20/5с (720p), $0.45/5с (1080p) = $0.04-0.09/с	5с	720p/1080p	Хороший (Pikaframes — указать первый и последний кадр)	Средняя	Pikaframes особенно полезен для "проход по комнате" — задаешь старт+финиш
Vidu	от $0.035/М токенов через Atlas Cloud	4/8с	1080p	Средний	Средняя	Reference-to-video — несколько фото для consistency
HunyuanVideo	self-hosted (60-80GB VRAM)	5-15с	720p	Слабый	Средняя	Open-source, требует свои GPU. Для нас не вариант (8GB VPS RAM)

Рекомендация для real estate:

Премиум: Veo 3 ($0.50/с) — лучшая стабильность интерьера, мебель не плывет
Стандарт: Runway Gen-4 Turbo ($0.05/с) или Pika 2.2 с Pikaframes — для "перехода между комнатами" (старт=фото комнаты A, финиш=фото комнаты B)
Бюджет: Hailuo 02 Standard ($0.045/с) или Veo 3.1 Lite ($0.05/с)

Важно для real estate: AI-video НЕ заменит реальную съемку для премиум-листингов. Текущий best-practice — гибрид: реальные фото остаются основой (через Ken Burns эффект — pan/zoom), а AI-видео используется для переходов между комнатами и B-roll вставок. Полностью AI-обход квартиры пока создает галлюцинации мебели и архитектуры.

2. TEXT-TO-SPEECH (озвучка риэлтора)

Сервис	Цена за 1k симв	RU качество	UA качество	Voice cloning	Эмоции	API
ElevenLabs Multilingual v2	~$0.30/1k (Pro $99/100к credits)	Топ	Топ — отдельно вложились в UA	Instant ($5), Professional ($22+)	Да (style/stability params, v3 alpha)	Лучший API
ElevenLabs Flash v2.5	~$0.15/1k	Очень хорошо	Хорошо	Да	Меньше эмоций	<75ms latency
OpenAI gpt-4o-mini-tts	$0.015/мин ($0.60/М input + $12/М аудио токенов)	Хорошо	Средне	Нет (instructions-based emotion)	Через "instructions" param — да	Простой, дешевый
OpenAI tts-1 / tts-1-hd	$15/М симв (HD: $30/М)	Хорошо	Средне	Нет	Минимум	Старая модель
Yandex SpeechKit	$0.000020/символ ≈ $0.02/1k симв	Топ для RU (premium voices)	UA нет	Custom voices Enterprise	Базовые эмоции	Российский, для UA не подходит
Google Cloud TTS	$4-16/М симв (WaveNet/Neural2)	Хорошо	Хорошо	Custom Voice Enterprise	Через SSML	Стабильный, $300 free credits
Azure Speech	$4-16/М симв	Хорошо	Хорошо	Neural Custom Voice (Enterprise)	Через SSML emotion styles	RU/UA хорошо
Murf AI Falcon API	~$0.01/мин (Creator $29/мес)	Средне	Слабо	Да	Базовые	<55ms latency, дешево
Resemble AI	$0.03-0.08/1k (volume)	Хорошо	Средне	Лучший cloning (rapid voice clone)	Да	Сложнее API
Play.ht	ЗАКРЫТ декабрь 2025 (купил Meta)	—	—	—	—	НЕ ИСПОЛЬЗОВАТЬ
Voicemod AI	$14.99/мес creators	Средне	Слабо	Да (entertainment focus)	Да	НЕ для серьезного контента

Рекомендация:

Default: ElevenLabs Multilingual v2 — лучшее качество RU+UA, voice cloning ($22 Creator план дает 10 IVC slots, $0.18/1k симв)
Бюджет: ElevenLabs Flash v2.5 (вдвое дешевле, чуть менее эмоционально) или OpenAI gpt-4o-mini-tts ($0.015/мин) если UA не нужен
Если только RU: Yandex SpeechKit ($0.02/1k симв — в 15 раз дешевле ElevenLabs)
Voice clone риэлтора: ElevenLabs Professional Voice Cloning ($22 Creator → upgrade до квоты)

3. LLM ДЛЯ ГЕНЕРАЦИИ СКРИПТА

Модель	Input $/M	Output $/M	RU/UA качество	Vision	Замечания
Claude Opus 4.7	$5	$25	Превосходное	Да	После 67% price drop. 1M context. Лучший для нюансов "продающего" текста
Claude Sonnet 4.6	$3	$15	Отличное	Да	Хороший баланс. Для скриптов 60-90с — достаточно
Claude Haiku 4.5	~$0.80	~$4	Очень хорошее	Да	Самый быстрый. Для batch генерации
GPT-5.5	$2.50	$15 (или $30/$180 Pro)	Отличное	Да	Альтернатива Claude. Нюансы продающего текста — слегка хуже
GPT-5.4	$2.50	$15	Очень хорошее	Да	Стандарт для большинства задач
Gemini 2.5 Pro	~$1.25	~$5	Хорошее	Да (Vision Flash отлично)	Хорош для длинного контекста
Gemini 2.5 Flash	$0.15	$0.60	Хорошее	Да	Самый дешевый для vision-задач
DeepSeek V4-Pro	$1.74	$3.48	Хорошее (RU чуть слабее Claude)	Ограниченно	7-9x дешевле Opus. Cost-sensitive default
DeepSeek V3	$0.27	$1.10	Хорошее	Нет	Сверх-дешевый текст
Llama 4 (Replicate)	~$0.50	~$2	Среднее для RU/UA	—	Open через Replicate
Qwen 3	от $0.20	от $0.80	Хорошее (китайский → RU слабее UA)	Есть VL версия	Через Replicate/Together

Рекомендация для нашего проекта (Claude API Platform уже подключен):

Скрипт обзора (продающий текст): Claude Sonnet 4.6 через claude.ai-platform.space (mode=direct, effort=high). $3/$15. На 1 видео — ~$0.02-0.05.
Premium tier: Claude Opus 4.7 (effort=max через прокси, adaptive thinking). На 1 видео — ~$0.10-0.20.
Batch для дешевых тарифов: DeepSeek V4-Pro или Haiku 4.5.

Pipeline на скрипт (60-90с = ~1500 символов = ~400 токенов):

Input: vision (фото) + structured params + system prompt = ~3-5k input tokens
Output: ~600-800 tokens
Sonnet 4.6: ~$0.025/скрипт
Opus 4.7: ~$0.05-0.10/скрипт

4. VISION (анализ фото квартиры)

Модель	Цена	Качество описания комнат	Распознавание ремонта	Замечания
Claude Sonnet 4.6 Vision	$3/$15	Отличное	Очень хорошее (нюансы евроремонта)	Default. Уже подключен через прокси
Claude Haiku 4.5 Vision	~$0.80/$4	Хорошее	Хорошее	Для batch
GPT-4o Vision	$2.50/$10	Отличное	Отличное	Альтернатива
GPT-5 mini Vision	~$0.50/$2	Очень хорошее	Хорошее	Cheaper alternative
Gemini 2.5 Flash Vision	$0.15/$0.60	Хорошее	Среднее	Сверх-дешевый. Для batch на 100+ фото
Gemini 2.5 Pro Vision	$1.25/$5	Очень хорошее	Хорошее	Лучше длинного контекста (10+ фото в одном запросе)
Qwen 2.5 VL (Replicate)	~$0.30/$1	Хорошее	Хорошее	Open-source альтернатива
LLaVA / InternVL	self-hosted	Среднее	Слабое	Не оправдано для коммерческого продукта

Рекомендация: Gemini 2.5 Flash для предварительного скрининга фото (классификация комнаты, освещение, состояние), затем Claude Sonnet 4.6 для финального промпта со всеми фото (5-15) одним вызовом — ~$0.10-0.20 на квартиру.

Промпт-стратегия: ОДИН multimodal вызов с 5-15 фото квартиры → структурированный JSON ответ (rooms, features, condition, lighting, vibe). НЕ зацикливаться по одному фото.

5. VIDEO COMPOSITING / EDITING

Сервис	Цена	Use case	Замечания
Shotstack	$49=200мин 720p, $99=500мин (FullHD от $0.20/мин)	Cloud rendering API, JSON timeline	Хорошая документация, RU/UA текст в captions ОК
Creatomate	$41=200мин (Essential), $54=2000 credits	JSON template-based	Дешевле в high-volume, но TTS — отдельные кредиты
JSON2Video	$49.95=200мин Full HD	JSON timeline, встроенный ElevenLabs+Azure TTS	Лучший value. Для нас — TTS сразу в одном вызове
Bannerbear video	~$49/100 видео	Templates, social media first	Не подходит для long-form
Cloudinary Video API	$99+/мес	Transformations, не editing	Скорее для CDN+resize, не композитинг
FFmpeg на VPS	свободно	Свой код	VPS 4 ядра / 8GB / NVMe — справится с 1080p 60-90с видео в 1-3 мин рендера. Полный контроль. Минус — разработка timeline кода

Рекомендация:

MVP: JSON2Video — встроенный TTS экономит вызов, JSON-timeline понятный, $0.25/мин очень умеренно
Volume scale: FFmpeg на VPS — после 500+ видео/мес становится в 10x дешевле. Pipeline: avatar.mp4 + voiceover.mp3 + background images → ffmpeg overlay+concat+xfade → final.mp4
Не нужно: Shotstack/Creatomate если у нас Hedra уже выдает финальное видео avatar+voice+background

Архитектура composing для MVP:

[Фото 1-5] ──┐
             ├─→ Ken Burns effect (FFmpeg pan/zoom) ─→ B-roll (15с)
[Фото 6+]  ──┘

[Hedra avatar video] (60с) ──┐
                              ├─→ FFmpeg concat + xfade ─→ Final (75с)
[B-roll]                     ──┘

[ElevenLabs voiceover] ──→ overlay audio ─→ subtitles (whisper-1)

6. STORAGE / DELIVERY

Решение	Цена	Use case
Cloudflare R2	$0.015/GB/мес storage, БЕСПЛАТНЫЙ egress	Лучшее для public videos (нет egress fees)
AWS S3	$0.023/GB/мес + $0.09/GB egress	Если уже AWS-инфраструктура
наш CDN serflow.cdn.express	бесплатно (входит в проект)	Default — уже есть в инфраструктуре
bunny.net Stream	$0.005/GB/мес delivery	HLS adaptive bitrate из коробки

Рекомендация: Использовать /mnt/cdn/ через rclone (FTP cdn3397_vps из CLAUDE.md), 100GB лимит. На стороне приложения — StorageClient класс из скилла storage-api. Для больших объемов (>500 видео) — переход на Cloudflare R2 (бесплатный egress критичен — видео тяжелые).

HLS: для MVP не нужен — раздавать MP4 напрямую (60-90с легкие). При scale → bunny.net Stream или Cloudflare Stream ($1/1000 минут просмотров).

7. INFRASTRUCTURE (тяжелые задачи)

Платформа	GPU цена	Cold start	Биллинг	Замечания
Replicate	A100-80GB ~$5.04/час, H100 ~$5.50/час	11-60+ сек	per-second	Простейший API, model marketplace. Хорош для prototyping
Modal Labs	H100 $3.95/час, A100 $3.00-4.00/час	<1 сек	per-second	Sub-second cold starts. Best для сериализации. Сложнее setup
RunPod	H100 on-demand $2.69-2.99/час, Serverless $5.59/час, A100 $1.89-2.49/час	~4 сек	per-minute	Самый дешевый. Для sustained workloads
Banana	устаревает	—	—	Сейчас не рекомендуется
Lambda Labs	A100 $1.10/час reserved	Долгий	hourly	Для постоянной нагрузки (24/7)
HuggingFace Inference Endpoints	T4 $0.60/час, A100 $4.50/час	30-60 сек	hourly	Управляемые HF модели
fal.ai	per-call (модель-специфично)	<5 сек	per-call	Best для готовых video моделей (Kling, Hailuo, Pika) — не нужно self-host

Рекомендация: ДЛЯ MVP self-hosted GPU НЕ НУЖЕН. Используем managed APIs:

Hedra (avatar) — direct API
Veo 3 / Runway / Hailuo — direct или через fal.ai (унифицированный API на 20+ моделей)
ElevenLabs (TTS) — direct API
Composing на нашем VPS (8GB достаточно для FFmpeg 1080p)

Self-host имеет смысл при scale 500+ видео/день, тогда — RunPod Serverless (H100 для open-source моделей типа HunyuanVideo).

АРХИТЕКТУРА MVP — Pipeline 7 шагов

┌──────────────────────────────────────────────────────────────────────────┐
│  USER UPLOADS:                                                            │
│  • 5-15 фото квартиры                                                     │
│  • Параметры (метраж, комнаты, район, цена, стиль: премиум/эконом/семья) │
│  • Выбор аватара (предустановленный / фото своего риэлтора)              │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 1: VISION ANALYSIS (~15 сек, $0.05-0.15)                            │
│  Claude Sonnet 4.6 vision — multimodal вызов с 5-15 фото                  │
│  → JSON: { rooms[], features, condition, lighting, vibe, sellingPoints[] } │
│  Модель через прокси: claude.ai-platform.space mode=direct                │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 2: SCRIPT GENERATION (~10 сек, $0.025-0.05)                         │
│  Claude Sonnet 4.6 — текст 60-90с (~1500 симв) на RU/UA                   │
│  Input: JSON из шага 1 + параметры + стиль                                │
│  Output: { script, scenesByRoom[], cta, voiceInstructions }               │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 3: TTS VOICEOVER (~20 сек, $0.30-0.50)                              │
│  ElevenLabs Multilingual v2 (или Flash v2.5 для бюджета)                  │
│  Voice: предустановленный (мужской/женский) или клон риэлтора             │
│  Input: script + voiceInstructions (style/stability/similarity)           │
│  Output: voiceover.mp3 (~75 сек, 48kHz)                                   │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 4: AVATAR VIDEO (~60-180 сек, $4-6)                                 │
│  Hedra Character-3 API ($0.05/мин streaming для preview ИЛИ                │
│  HeyGen Avatar IV $3-6/мин для финала)                                    │
│  Input: avatarPhoto + voiceover.mp3                                       │
│  Output: avatar.mp4 (75 сек, 1080p, transparent bg или pre-keyed)         │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 5: B-ROLL TRANSITIONS (опционально, $0.50-2.00)                     │
│  Pika 2.2 Pikaframes ИЛИ Runway Gen-4 Turbo                               │
│  • Pikaframes: задаем фото комнаты A (старт) и комнаты B (финиш)         │
│  • Получаем 5с переход. На 4-5 переходов = $1-3                           │
│  Output: transition_1.mp4 ... transition_5.mp4                            │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 6: COMPOSITING (~30-90 сек, бесплатно VPS / $0.30 JSON2Video)       │
│  FFmpeg на VPS (8GB RAM достаточно):                                      │
│  • Ken Burns на статичных фото (zoompan filter)                           │
│  • Overlay аватар на фон комнаты (chromakey если зеленый bg)              │
│  • Concat: intro_photo → room1+avatar → transition1 → room2+avatar → ... │
│  • Add background music (free via Pixabay) ducked under voice             │
│  • Burn-in subtitles (Whisper-1 на voiceover.mp3 → SRT)                   │
│  Output: final.mp4 (1080p, 75 сек, ~15-25MB)                              │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 7: STORAGE & DELIVERY (~5 сек, бесплатно)                           │
│  Upload в /mnt/cdn/present-room/{user_id}/{video_id}.mp4                  │
│  → serflow.cdn.express/present-room/...                                   │
│  → user получает URL, share-link, embed code                              │
└──────────────────────────────────────────────────────────────────────────┘

ИТОГО: 7 шагов, total time ~3-5 минут (с rendering Hedra который дольше всех)

Параллелизация: Steps 3 (TTS) и 5 (B-roll) могут идти параллельно с Step 4 (Avatar). Сократит общее время до 2-3 минут.

СЕБЕСТОИМОСТЬ ОДНОГО ВИДЕО (1 минута финала)

Бюджет (минимальная цена) — ~$2.30/видео

Компонент	Сервис	Цена
Vision (5 фото)	Gemini 2.5 Flash	$0.02
Script (60-90с)	DeepSeek V4-Pro	$0.005
TTS (1500 симв RU)	ElevenLabs Flash v2.5	$0.20
Avatar video (75с)	Hedra Character-3 ($0.05/мин streaming)	$0.06
B-roll transitions (3×5с)	Hailuo 02 Standard ($0.045/с)	$0.68
Compositing	FFmpeg на VPS	$0.00
Storage	наш CDN	$0.00
LLM overhead (subtitles, prompts)	Haiku 4.5	$0.05
ИТОГО		~$1.05/видео

(Если Hedra streaming не подходит для async — делать через rendered API ~$0.50-1/мин = $1-2 итого)

Стандарт — ~$5-8/видео

Компонент	Сервис	Цена
Vision	Claude Sonnet 4.6	$0.10
Script	Claude Sonnet 4.6	$0.05
TTS	ElevenLabs Multilingual v2	$0.45
Avatar video	HeyGen Avatar IV (6 кред/мин × $0.50 = $3/мин)	$3.75 (75с)
B-roll (3×5с переходов)	Runway Gen-4 Turbo ($0.05/с)	$0.75
Compositing	JSON2Video или FFmpeg	$0.30 / $0
LLM overhead	Sonnet	$0.10
ИТОГО		~$5.50/видео

Премиум — ~$15-25/видео

Компонент	Сервис	Цена
Vision	Claude Opus 4.7 (effort=max)	$0.30
Script	Claude Opus 4.7	$0.15
TTS	ElevenLabs Multilingual v2 + Voice Clone	$0.50
Avatar video	HeyGen Avatar IV 4K (Custom Avatar Enterprise)	$6-10
B-roll (5×8с)	Veo 3 ($0.50/с)	$20
Compositing	FFmpeg pro pipeline	$0.50
LLM overhead	Opus	$0.30
ИТОГО		~$28/видео

(При премиум-тарифе для агентств логично возвращаться к гибриду: использовать Veo только на 2-3 ключевых перехода = $5-8 вместо $20)

TIME-TO-MARKET

Фаза	Срок	Описание
1. Backend skeleton	1 неделя	PHP+jQuery SPA из pattern-frame `stack-spa`, MySQL схема (users, videos, jobs, queue), MercureSSE подключение
2. Upload UI + Vision	1 неделя	Загрузка фото (drag-n-drop), интеграция Claude Sonnet vision, сохранение JSON анализа
3. Script + TTS pipeline	1 неделя	Claude API для скрипта, ElevenLabs API client (с retry, dead-letter queue из incident-rules #30), preview UI
4. Avatar API + queue	2 недели	Hedra/HeyGen integration, async queue worker, статус-tracking через Mercure SSE, retry logic
5. B-roll + Compositing	2 недели	FFmpeg pipeline на VPS (zoompan, overlay, concat, xfade), Pika/Runway integration для transitions, subtitles через Whisper
6. Player + Sharing	1 неделя	Видео-плеер на странице результата, share links, download MP4, embed code
7. Billing + Auth	1 неделя	Lava.top подписки (из pattern-frame `lava-payment`), credit balance, лимиты по tier
8. QA + полировка	1 неделя	E2E тесты Playwright, UX-аудит, дизайн pixel-perfect
9. Production launch	0.5 недели	Деплой VPS, мониторинг через observability skill, Telegram алерты

MVP полный (бюджет tier с Hedra): 8-10 недель одной разработчиком. С 2 разработчиками — 5-6 недель.

Lean MVP без custom avatars (только preset аватары + бюджет stack): 4 недели.

РИСКИ