Технические компоненты present-room.ai-platform.space
Note (Plan mode): Исходно отчет должен был лежать в
/Users/tsemakhold/home/serverflow/web/present-room.ai-platform.space/www/research/03_technical_components.md. В режиме Plan можно писать только в plan-файл; перенести содержимое в research-папку — ОДНОЙ командойcpпосле выхода из Plan mode.
Дата: 2026-04-25. Контекст: AI-сервис генерации видео-обзоров квартир (фото квартиры + аватар риэлтора → говорящий риэлтор "ходит" по квартире). Цены актуальны на апрель 2026.
1. AI ВИДЕО ГЕНЕРАЦИЯ
1.1. Talking Avatar API (озвученный риэлтор-аватар)
| Сервис | Цена | RU/UA | Кастомный аватар (фото) | Длина | Разрешение | Замечания |
|---|---|---|---|---|---|---|
| HeyGen | $0.50/мин (Scale tier API) или $0.99/мин (Pro). Avatar IV ≈ 6 кред/мин = $3-6/мин | RU да, UA — частично (175 языков но UA не везде явно) | Custom Digital Twin ТОЛЬКО Enterprise (минимум по запросу) | До 30 мин | до 1080p, Avatar IV 4K | Лидер по lipsync. API стабильный. Photo Avatar (генерация по 1 фото) дешевле клона |
| Synthesia | Enterprise only, $20-100k/год | 80+ языков (RU, UA в Studio) | Personal Avatar (3-5 мин видео обучение) | unlimited | 1080p / 4K Enterprise | Корпоративный, дорогой, медленный onboarding кастомных аватаров (~7 дней) |
| D-ID | $5.90/мин API. Studio от $4.70/мес | RU да, UA да (через Microsoft TTS bridge) | Photo→Talk (одно фото!) — встроено | до 5 мин | 720p / 1080p | Самый дешевый "1 фото → говорящий аватар". НО качество lip-sync хуже HeyGen. Подходит для MVP |
| Hedra Character-3 | $0.05/мин streaming ($3/час live), API кредиты от $10/мес. Февраль 2026 — полный API | Multi-language | По 1 фото + аудио (omnimodal) | до 15 мин | 1080p | САМЫЙ ДЕШЕВЫЙ из качественных. Эмоции, micro-expressions, full-body motion. Фаворит для нашего use-case |
| Tavus | $39/мес (Hobbyist) до $199/мес (Business) + Enterprise от $10k/мес | 30+ языков | Personal Avatar (Business+) | до 5 мин | HD | Хорош для real-time conversational video (с собеседником), не для нарративов |
| Vidnoz AI | от $14.99/мес, 460+ голосов, $19.99 = 15 мин/мес | RU да, UA — слабо | Custom (Pro+) | до 5 мин | 1080p | Дешевый, китайский. API менее зрелый |
| Akool | $30 = 600 кред / $109 = 2400 кред (4K) | 175+ языков | Custom (Pro+) | до 10 мин | 4K (Pro+) | Lip-sync video translator — хорошо для дубляжа |
| DeepBrain AI | Enterprise, контракты от $30/мес базовый | 80+ языков (RU, UA) | Custom (нужно ~4 мин видео) | до 20 мин | 4K | Корейский корпоративный. Долгий onboarding |
| Captions AI | $9.99-$24.99/мес, API в beta | 28+ языков | Photo Avatar | до 60 сек | 720p | Сильный авто-сабтайтлы. UI слабый для long-form |
| Argil AI | freemium → unlimited tier | EN основной, RU/UA ограниченно | По 2 мин видео | до 5 мин | 1080p | Новый игрок, целит в creators (TikTok-стиль) |
Рекомендация: для MVP — Hedra Character-3 ($0.05/мин streaming, API через api.hedra.com). Резерв — D-ID ($5.90/мин но Photo→Talk без обучения). HeyGen — когда клиент готов платить премиум за качество и доверится Enterprise onboarding.
1.2. Image-to-Video (превратить фото квартиры в видео-обход)
| Модель | Цена за 1с видео | Длина | Разрешение | Camera control | Стабильность интерьера | Замечания |
|---|---|---|---|---|---|---|
| Runway Gen-4 | $0.12/с ($0.05/с Turbo) | 5/10с | 1080p | Лучший в классе (Camera Motion Brush, Director Mode) | Высокая. Gen-4.5 — temporal consistency не плывет | Best для real estate B-roll. API стабильный, $0.01/credit |
| Runway Gen-4 Turbo | $0.05/с | 5/10с | 720p/1080p | Простой | Хорошая | Бюджетный вариант, чуть хуже композиции |
| Sora 2 (стандарт) | $0.10/с (720p) | 4/8/12с | 720p | Средний | Высокая | API через ChatGPT Plus/Pro (нужна подписка). Жесткие content policies (real estate ОК) |
| Sora 2 Pro | $0.30-0.50/с (1024p) | до 25с | до 1024p | Хороший | Очень высокая | Дорого, но кинематографичный результат |
| Veo 3 (Vertex AI) | $0.50/с видео, $0.75/с с аудио | 4-8с | 1080p | Хороший, через промпт | Лучшая в классе | Самый стабильный интерьер. Но дорогой и квоты Vertex |
| Veo 3.1 Lite | $0.05/с (Vertex) | до 8с | 720p | Базовый | Хорошая | После 7 апреля 2026 цена ниже. Сильный value |
| Kling 3.0 | $0.075/с (i2v), $0.1125/с (с reference) | 5/10с | 720p/1080p | Средний | Средняя — мебель иногда плывет | Китайский, дешевый. Хорош для абстрактных сцен |
| Kling 2.6 Pro | $0.07/с (без аудио), $0.14/с (с аудио) | 5/10с | 1080p | Средний | Средняя-высокая | Через fal.ai |
| Hailuo 02 Standard | $0.045/с (768p) | 6с | 768p | Слабый — авто-камера | Средняя | Самый дешевый. Подходит для коротких клипов |
| Hailuo 02 Pro | $0.08/с (1080p) | 6с | 1080p | Средний | Средняя | Хороший баланс цена/качество |
| Pika 2.2 | $0.20/5с (720p), $0.45/5с (1080p) = $0.04-0.09/с | 5с | 720p/1080p | Хороший (Pikaframes — указать первый и последний кадр) | Средняя | Pikaframes особенно полезен для "проход по комнате" — задаешь старт+финиш |
| Vidu | от $0.035/М токенов через Atlas Cloud | 4/8с | 1080p | Средний | Средняя | Reference-to-video — несколько фото для consistency |
| HunyuanVideo | self-hosted (60-80GB VRAM) | 5-15с | 720p | Слабый | Средняя | Open-source, требует свои GPU. Для нас не вариант (8GB VPS RAM) |
Рекомендация для real estate:
- Премиум: Veo 3 ($0.50/с) — лучшая стабильность интерьера, мебель не плывет
- Стандарт: Runway Gen-4 Turbo ($0.05/с) или Pika 2.2 с Pikaframes — для "перехода между комнатами" (старт=фото комнаты A, финиш=фото комнаты B)
- Бюджет: Hailuo 02 Standard ($0.045/с) или Veo 3.1 Lite ($0.05/с)
Важно для real estate: AI-video НЕ заменит реальную съемку для премиум-листингов. Текущий best-practice — гибрид: реальные фото остаются основой (через Ken Burns эффект — pan/zoom), а AI-видео используется для переходов между комнатами и B-roll вставок. Полностью AI-обход квартиры пока создает галлюцинации мебели и архитектуры.
2. TEXT-TO-SPEECH (озвучка риэлтора)
| Сервис | Цена за 1k симв | RU качество | UA качество | Voice cloning | Эмоции | API |
|---|---|---|---|---|---|---|
| ElevenLabs Multilingual v2 | ~$0.30/1k (Pro $99/100к credits) | Топ | Топ — отдельно вложились в UA | Instant ($5), Professional ($22+) | Да (style/stability params, v3 alpha) | Лучший API |
| ElevenLabs Flash v2.5 | ~$0.15/1k | Очень хорошо | Хорошо | Да | Меньше эмоций | <75ms latency |
| OpenAI gpt-4o-mini-tts | $0.015/мин ($0.60/М input + $12/М аудио токенов) | Хорошо | Средне | Нет (instructions-based emotion) | Через "instructions" param — да | Простой, дешевый |
| OpenAI tts-1 / tts-1-hd | $15/М симв (HD: $30/М) | Хорошо | Средне | Нет | Минимум | Старая модель |
| Yandex SpeechKit | $0.000020/символ ≈ $0.02/1k симв | Топ для RU (premium voices) | UA нет | Custom voices Enterprise | Базовые эмоции | Российский, для UA не подходит |
| Google Cloud TTS | $4-16/М симв (WaveNet/Neural2) | Хорошо | Хорошо | Custom Voice Enterprise | Через SSML | Стабильный, $300 free credits |
| Azure Speech | $4-16/М симв | Хорошо | Хорошо | Neural Custom Voice (Enterprise) | Через SSML emotion styles | RU/UA хорошо |
| Murf AI Falcon API | ~$0.01/мин (Creator $29/мес) | Средне | Слабо | Да | Базовые | <55ms latency, дешево |
| Resemble AI | $0.03-0.08/1k (volume) | Хорошо | Средне | Лучший cloning (rapid voice clone) | Да | Сложнее API |
| Play.ht | ЗАКРЫТ декабрь 2025 (купил Meta) | — | — | — | — | НЕ ИСПОЛЬЗОВАТЬ |
| Voicemod AI | $14.99/мес creators | Средне | Слабо | Да (entertainment focus) | Да | НЕ для серьезного контента |
Рекомендация:
- Default: ElevenLabs Multilingual v2 — лучшее качество RU+UA, voice cloning ($22 Creator план дает 10 IVC slots, $0.18/1k симв)
- Бюджет: ElevenLabs Flash v2.5 (вдвое дешевле, чуть менее эмоционально) или OpenAI gpt-4o-mini-tts ($0.015/мин) если UA не нужен
- Если только RU: Yandex SpeechKit ($0.02/1k симв — в 15 раз дешевле ElevenLabs)
- Voice clone риэлтора: ElevenLabs Professional Voice Cloning ($22 Creator → upgrade до квоты)
3. LLM ДЛЯ ГЕНЕРАЦИИ СКРИПТА
| Модель | Input $/M | Output $/M | RU/UA качество | Vision | Замечания |
|---|---|---|---|---|---|
| Claude Opus 4.7 | $5 | $25 | Превосходное | Да | После 67% price drop. 1M context. Лучший для нюансов "продающего" текста |
| Claude Sonnet 4.6 | $3 | $15 | Отличное | Да | Хороший баланс. Для скриптов 60-90с — достаточно |
| Claude Haiku 4.5 | ~$0.80 | ~$4 | Очень хорошее | Да | Самый быстрый. Для batch генерации |
| GPT-5.5 | $2.50 | $15 (или $30/$180 Pro) | Отличное | Да | Альтернатива Claude. Нюансы продающего текста — слегка хуже |
| GPT-5.4 | $2.50 | $15 | Очень хорошее | Да | Стандарт для большинства задач |
| Gemini 2.5 Pro | ~$1.25 | ~$5 | Хорошее | Да (Vision Flash отлично) | Хорош для длинного контекста |
| Gemini 2.5 Flash | $0.15 | $0.60 | Хорошее | Да | Самый дешевый для vision-задач |
| DeepSeek V4-Pro | $1.74 | $3.48 | Хорошее (RU чуть слабее Claude) | Ограниченно | 7-9x дешевле Opus. Cost-sensitive default |
| DeepSeek V3 | $0.27 | $1.10 | Хорошее | Нет | Сверх-дешевый текст |
| Llama 4 (Replicate) | ~$0.50 | ~$2 | Среднее для RU/UA | — | Open через Replicate |
| Qwen 3 | от $0.20 | от $0.80 | Хорошее (китайский → RU слабее UA) | Есть VL версия | Через Replicate/Together |
Рекомендация для нашего проекта (Claude API Platform уже подключен):
- Скрипт обзора (продающий текст): Claude Sonnet 4.6 через
claude.ai-platform.space(mode=direct, effort=high). $3/$15. На 1 видео — ~$0.02-0.05. - Premium tier: Claude Opus 4.7 (effort=max через прокси, adaptive thinking). На 1 видео — ~$0.10-0.20.
- Batch для дешевых тарифов: DeepSeek V4-Pro или Haiku 4.5.
Pipeline на скрипт (60-90с = ~1500 символов = ~400 токенов):
- Input: vision (фото) + structured params + system prompt = ~3-5k input tokens
- Output: ~600-800 tokens
- Sonnet 4.6: ~$0.025/скрипт
- Opus 4.7: ~$0.05-0.10/скрипт
4. VISION (анализ фото квартиры)
| Модель | Цена | Качество описания комнат | Распознавание ремонта | Замечания |
|---|---|---|---|---|
| Claude Sonnet 4.6 Vision | $3/$15 | Отличное | Очень хорошее (нюансы евроремонта) | Default. Уже подключен через прокси |
| Claude Haiku 4.5 Vision | ~$0.80/$4 | Хорошее | Хорошее | Для batch |
| GPT-4o Vision | $2.50/$10 | Отличное | Отличное | Альтернатива |
| GPT-5 mini Vision | ~$0.50/$2 | Очень хорошее | Хорошее | Cheaper alternative |
| Gemini 2.5 Flash Vision | $0.15/$0.60 | Хорошее | Среднее | Сверх-дешевый. Для batch на 100+ фото |
| Gemini 2.5 Pro Vision | $1.25/$5 | Очень хорошее | Хорошее | Лучше длинного контекста (10+ фото в одном запросе) |
| Qwen 2.5 VL (Replicate) | ~$0.30/$1 | Хорошее | Хорошее | Open-source альтернатива |
| LLaVA / InternVL | self-hosted | Среднее | Слабое | Не оправдано для коммерческого продукта |
Рекомендация: Gemini 2.5 Flash для предварительного скрининга фото (классификация комнаты, освещение, состояние), затем Claude Sonnet 4.6 для финального промпта со всеми фото (5-15) одним вызовом — ~$0.10-0.20 на квартиру.
Промпт-стратегия: ОДИН multimodal вызов с 5-15 фото квартиры → структурированный JSON ответ (rooms, features, condition, lighting, vibe). НЕ зацикливаться по одному фото.
5. VIDEO COMPOSITING / EDITING
| Сервис | Цена | Use case | Замечания |
|---|---|---|---|
| Shotstack | $49=200мин 720p, $99=500мин (FullHD от $0.20/мин) | Cloud rendering API, JSON timeline | Хорошая документация, RU/UA текст в captions ОК |
| Creatomate | $41=200мин (Essential), $54=2000 credits | JSON template-based | Дешевле в high-volume, но TTS — отдельные кредиты |
| JSON2Video | $49.95=200мин Full HD | JSON timeline, встроенный ElevenLabs+Azure TTS | Лучший value. Для нас — TTS сразу в одном вызове |
| Bannerbear video | ~$49/100 видео | Templates, social media first | Не подходит для long-form |
| Cloudinary Video API | $99+/мес | Transformations, не editing | Скорее для CDN+resize, не композитинг |
| FFmpeg на VPS | свободно | Свой код | VPS 4 ядра / 8GB / NVMe — справится с 1080p 60-90с видео в 1-3 мин рендера. Полный контроль. Минус — разработка timeline кода |
Рекомендация:
- MVP: JSON2Video — встроенный TTS экономит вызов, JSON-timeline понятный, $0.25/мин очень умеренно
- Volume scale: FFmpeg на VPS — после 500+ видео/мес становится в 10x дешевле. Pipeline: avatar.mp4 + voiceover.mp3 + background images → ffmpeg overlay+concat+xfade → final.mp4
- Не нужно: Shotstack/Creatomate если у нас Hedra уже выдает финальное видео avatar+voice+background
Архитектура composing для MVP:
[Фото 1-5] ──┐
├─→ Ken Burns effect (FFmpeg pan/zoom) ─→ B-roll (15с)
[Фото 6+] ──┘
[Hedra avatar video] (60с) ──┐
├─→ FFmpeg concat + xfade ─→ Final (75с)
[B-roll] ──┘
[ElevenLabs voiceover] ──→ overlay audio ─→ subtitles (whisper-1)
6. STORAGE / DELIVERY
| Решение | Цена | Use case |
|---|---|---|
| Cloudflare R2 | $0.015/GB/мес storage, БЕСПЛАТНЫЙ egress | Лучшее для public videos (нет egress fees) |
| AWS S3 | $0.023/GB/мес + $0.09/GB egress | Если уже AWS-инфраструктура |
| наш CDN serflow.cdn.express | бесплатно (входит в проект) | Default — уже есть в инфраструктуре |
| bunny.net Stream | $0.005/GB/мес delivery | HLS adaptive bitrate из коробки |
Рекомендация: Использовать /mnt/cdn/ через rclone (FTP cdn3397_vps из CLAUDE.md), 100GB лимит. На стороне приложения — StorageClient класс из скилла storage-api. Для больших объемов (>500 видео) — переход на Cloudflare R2 (бесплатный egress критичен — видео тяжелые).
HLS: для MVP не нужен — раздавать MP4 напрямую (60-90с легкие). При scale → bunny.net Stream или Cloudflare Stream ($1/1000 минут просмотров).
7. INFRASTRUCTURE (тяжелые задачи)
| Платформа | GPU цена | Cold start | Биллинг | Замечания |
|---|---|---|---|---|
| Replicate | A100-80GB ~$5.04/час, H100 ~$5.50/час | 11-60+ сек | per-second | Простейший API, model marketplace. Хорош для prototyping |
| Modal Labs | H100 $3.95/час, A100 $3.00-4.00/час | <1 сек | per-second | Sub-second cold starts. Best для сериализации. Сложнее setup |
| RunPod | H100 on-demand $2.69-2.99/час, Serverless $5.59/час, A100 $1.89-2.49/час | ~4 сек | per-minute | Самый дешевый. Для sustained workloads |
| Banana | устаревает | — | — | Сейчас не рекомендуется |
| Lambda Labs | A100 $1.10/час reserved | Долгий | hourly | Для постоянной нагрузки (24/7) |
| HuggingFace Inference Endpoints | T4 $0.60/час, A100 $4.50/час | 30-60 сек | hourly | Управляемые HF модели |
| fal.ai | per-call (модель-специфично) | <5 сек | per-call | Best для готовых video моделей (Kling, Hailuo, Pika) — не нужно self-host |
Рекомендация: ДЛЯ MVP self-hosted GPU НЕ НУЖЕН. Используем managed APIs:
- Hedra (avatar) — direct API
- Veo 3 / Runway / Hailuo — direct или через fal.ai (унифицированный API на 20+ моделей)
- ElevenLabs (TTS) — direct API
- Composing на нашем VPS (8GB достаточно для FFmpeg 1080p)
Self-host имеет смысл при scale 500+ видео/день, тогда — RunPod Serverless (H100 для open-source моделей типа HunyuanVideo).
АРХИТЕКТУРА MVP — Pipeline 7 шагов
┌──────────────────────────────────────────────────────────────────────────┐
│ USER UPLOADS: │
│ • 5-15 фото квартиры │
│ • Параметры (метраж, комнаты, район, цена, стиль: премиум/эконом/семья) │
│ • Выбор аватара (предустановленный / фото своего риэлтора) │
└─────────────────────────┬─────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────┐
│ STEP 1: VISION ANALYSIS (~15 сек, $0.05-0.15) │
│ Claude Sonnet 4.6 vision — multimodal вызов с 5-15 фото │
│ → JSON: { rooms[], features, condition, lighting, vibe, sellingPoints[] } │
│ Модель через прокси: claude.ai-platform.space mode=direct │
└─────────────────────────┬─────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────┐
│ STEP 2: SCRIPT GENERATION (~10 сек, $0.025-0.05) │
│ Claude Sonnet 4.6 — текст 60-90с (~1500 симв) на RU/UA │
│ Input: JSON из шага 1 + параметры + стиль │
│ Output: { script, scenesByRoom[], cta, voiceInstructions } │
└─────────────────────────┬─────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────┐
│ STEP 3: TTS VOICEOVER (~20 сек, $0.30-0.50) │
│ ElevenLabs Multilingual v2 (или Flash v2.5 для бюджета) │
│ Voice: предустановленный (мужской/женский) или клон риэлтора │
│ Input: script + voiceInstructions (style/stability/similarity) │
│ Output: voiceover.mp3 (~75 сек, 48kHz) │
└─────────────────────────┬─────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────┐
│ STEP 4: AVATAR VIDEO (~60-180 сек, $4-6) │
│ Hedra Character-3 API ($0.05/мин streaming для preview ИЛИ │
│ HeyGen Avatar IV $3-6/мин для финала) │
│ Input: avatarPhoto + voiceover.mp3 │
│ Output: avatar.mp4 (75 сек, 1080p, transparent bg или pre-keyed) │
└─────────────────────────┬─────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────┐
│ STEP 5: B-ROLL TRANSITIONS (опционально, $0.50-2.00) │
│ Pika 2.2 Pikaframes ИЛИ Runway Gen-4 Turbo │
│ • Pikaframes: задаем фото комнаты A (старт) и комнаты B (финиш) │
│ • Получаем 5с переход. На 4-5 переходов = $1-3 │
│ Output: transition_1.mp4 ... transition_5.mp4 │
└─────────────────────────┬─────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────┐
│ STEP 6: COMPOSITING (~30-90 сек, бесплатно VPS / $0.30 JSON2Video) │
│ FFmpeg на VPS (8GB RAM достаточно): │
│ • Ken Burns на статичных фото (zoompan filter) │
│ • Overlay аватар на фон комнаты (chromakey если зеленый bg) │
│ • Concat: intro_photo → room1+avatar → transition1 → room2+avatar → ... │
│ • Add background music (free via Pixabay) ducked under voice │
│ • Burn-in subtitles (Whisper-1 на voiceover.mp3 → SRT) │
│ Output: final.mp4 (1080p, 75 сек, ~15-25MB) │
└─────────────────────────┬─────────────────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────────────────────┐
│ STEP 7: STORAGE & DELIVERY (~5 сек, бесплатно) │
│ Upload в /mnt/cdn/present-room/{user_id}/{video_id}.mp4 │
│ → serflow.cdn.express/present-room/... │
│ → user получает URL, share-link, embed code │
└──────────────────────────────────────────────────────────────────────────┘
ИТОГО: 7 шагов, total time ~3-5 минут (с rendering Hedra который дольше всех)
Параллелизация: Steps 3 (TTS) и 5 (B-roll) могут идти параллельно с Step 4 (Avatar). Сократит общее время до 2-3 минут.
СЕБЕСТОИМОСТЬ ОДНОГО ВИДЕО (1 минута финала)
Бюджет (минимальная цена) — ~$2.30/видео
| Компонент | Сервис | Цена |
|---|---|---|
| Vision (5 фото) | Gemini 2.5 Flash | $0.02 |
| Script (60-90с) | DeepSeek V4-Pro | $0.005 |
| TTS (1500 симв RU) | ElevenLabs Flash v2.5 | $0.20 |
| Avatar video (75с) | Hedra Character-3 ($0.05/мин streaming) | $0.06 |
| B-roll transitions (3×5с) | Hailuo 02 Standard ($0.045/с) | $0.68 |
| Compositing | FFmpeg на VPS | $0.00 |
| Storage | наш CDN | $0.00 |
| LLM overhead (subtitles, prompts) | Haiku 4.5 | $0.05 |
| ИТОГО | ~$1.05/видео |
(Если Hedra streaming не подходит для async — делать через rendered API ~$0.50-1/мин = $1-2 итого)
Стандарт — ~$5-8/видео
| Компонент | Сервис | Цена |
|---|---|---|
| Vision | Claude Sonnet 4.6 | $0.10 |
| Script | Claude Sonnet 4.6 | $0.05 |
| TTS | ElevenLabs Multilingual v2 | $0.45 |
| Avatar video | HeyGen Avatar IV (6 кред/мин × $0.50 = $3/мин) | $3.75 (75с) |
| B-roll (3×5с переходов) | Runway Gen-4 Turbo ($0.05/с) | $0.75 |
| Compositing | JSON2Video или FFmpeg | $0.30 / $0 |
| LLM overhead | Sonnet | $0.10 |
| ИТОГО | ~$5.50/видео |
Премиум — ~$15-25/видео
| Компонент | Сервис | Цена |
|---|---|---|
| Vision | Claude Opus 4.7 (effort=max) | $0.30 |
| Script | Claude Opus 4.7 | $0.15 |
| TTS | ElevenLabs Multilingual v2 + Voice Clone | $0.50 |
| Avatar video | HeyGen Avatar IV 4K (Custom Avatar Enterprise) | $6-10 |
| B-roll (5×8с) | Veo 3 ($0.50/с) | $20 |
| Compositing | FFmpeg pro pipeline | $0.50 |
| LLM overhead | Opus | $0.30 |
| ИТОГО | ~$28/видео |
(При премиум-тарифе для агентств логично возвращаться к гибриду: использовать Veo только на 2-3 ключевых перехода = $5-8 вместо $20)
TIME-TO-MARKET
| Фаза | Срок | Описание |
|---|---|---|
| 1. Backend skeleton | 1 неделя | PHP+jQuery SPA из pattern-frame stack-spa, MySQL схема (users, videos, jobs, queue), MercureSSE подключение |
| 2. Upload UI + Vision | 1 неделя | Загрузка фото (drag-n-drop), интеграция Claude Sonnet vision, сохранение JSON анализа |
| 3. Script + TTS pipeline | 1 неделя | Claude API для скрипта, ElevenLabs API client (с retry, dead-letter queue из incident-rules #30), preview UI |
| 4. Avatar API + queue | 2 недели | Hedra/HeyGen integration, async queue worker, статус-tracking через Mercure SSE, retry logic |
| 5. B-roll + Compositing | 2 недели | FFmpeg pipeline на VPS (zoompan, overlay, concat, xfade), Pika/Runway integration для transitions, subtitles через Whisper |
| 6. Player + Sharing | 1 неделя | Видео-плеер на странице результата, share links, download MP4, embed code |
| 7. Billing + Auth | 1 неделя | Lava.top подписки (из pattern-frame lava-payment), credit balance, лимиты по tier |
| 8. QA + полировка | 1 неделя | E2E тесты Playwright, UX-аудит, дизайн pixel-perfect |
| 9. Production launch | 0.5 недели | Деплой VPS, мониторинг через observability skill, Telegram алерты |
MVP полный (бюджет tier с Hedra): 8-10 недель одной разработчиком. С 2 разработчиками — 5-6 недель.
Lean MVP без custom avatars (только preset аватары + бюджет stack): 4 недели.
РИСКИ
Технические
- AI-видео НЕ заменит реальную съемку для премиум-листингов. Главная ставка не на "AI-обход квартиры", а на AI-говорящего риэлтора + Ken Burns по реальным фото + 2-3 AI-перехода. Полностью генерированный обход дает галлюцинации мебели/архитектуры — клиенты будут жаловаться.
- Cold start на Avatar API: Hedra/HeyGen rendering 60-180 секунд. Не делать sync — обязательно async через Mercure SSE с прогресс-баром (магия sub-100ms ощущения через optimistic UI).
- Rate limits:
- HeyGen Pro: ~30 req/min на API key — на всплесках (десятки одновременных) нужен queue с throttling
- ElevenLabs Creator: 5 concurrent requests, выше — Pro/Scale
- Claude: 1M tpm на Tier 4. Заранее заявить tier upgrade
- Sora 2 API доступ: требует ChatGPT Plus/Pro подписки и approval. С 10 января 2026 free tier удален. План B: не закладываться на Sora — Veo 3 альтернатива доступнее.
- Voice cloning для риэлтора требует 1-3 минуты чистого аудио. UI должен принимать запись через MediaRecorder (jQuery 4) и отправлять на ElevenLabs IVC endpoint. Качество клонирования RU/UA на 1 минуте — среднее, лучше 3-5 минут.
Юридические / Content Policy
- HeyGen / Synthesia / D-ID требуют consent для custom avatars. Запрещено создавать аватар реального человека без видео-согласия. Юридически — рекомендуется чек-бокс "я подтверждаю, что я владелец фото/видео или имею письменное согласие".
- Voice cloning: ElevenLabs требует voice consent statement при создании Professional Voice Clone. Inteant Voice Clone — мягче, но рекомендация — записывать consent тем же микрофоном.
- Реклама недвижимости в RU/UA: правила контроля. AI-сгенерированные "обходы" должны иметь disclaimer "видео сгенерировано искусственным интеллектом, реальная квартира может отличаться". Без disclaimer — риск исков от покупателей.
- Sora 2 / Veo 3 content policies: жесткие на людей-знаменитостей, бренды, сцены недвижимости — обычно ОК. Но нужно проверить на realistic faces в B-roll.
Финансовые / Бизнес
- Себестоимость scale: при 1000 видео/мес = $1050 (бюджет) до $28000 (премиум) затрат на API. Маржа MVP — закладывать 3-5x наценку (продажа $5-50 за видео в зависимости от tier).
- Hedra Character-3 — новый игрок (февраль 2026 API). Риск изменения цены или закрытия. Обязательно реализовать abstraction layer (
AvatarProviderinterface), чтобы менять Hedra → HeyGen → D-ID без перекодировки бизнес-логики. - OpenAI Sora 2 политика: январь 2026 убрали free tier. Может еще раз изменить. Не делать критическую зависимость.
- Языковая поддержка UA: ElevenLabs выделил UA, но HeyGen — частично. Тестировать конкретные voices на UA перед обещанием клиентам. Yandex SpeechKit для UA НЕ работает — не предлагать.
Операционные
- Очередь задач: одна квартира = ~5 минут rendering. На VPS 4 ядра / 8GB RAM нужен PHP queue worker с лимитом параллельности (4-5 одновременных) + retry с exponential backoff (incident-rules #35: 10-12 попыток, 5-30с backoff). Dead-letter queue обязательна (incident-rules #30) — таблица
failed_video_jobsс retry_count. - Мониторинг расходов: API costs могут взорваться при баге (бесконечный цикл генерации). Hard cap на user: $X/день на provider, alert в Telegram при 80%. Предохранитель в БД на стоимость одного job.
- Конкуренты Vidnoz/Akool/Captions делают то же самое. Дифференциация — качество UA-голосов и продающих скриптов, специализация на real estate, скорость pipeline.
- VPS PHP-FPM + SSE: не использовать self-hosted SSE для avatar progress — забивает workers (incident-rules #45). Только через Mercure Hub (
mercure.ai-platform.space).
SOURCES
- HeyGen API Pricing
- HeyGen Pricing 2026
- Synthesia Pricing 2026
- D-ID API Pricing
- Hedra API Pricing
- Hedra Live Avatars $0.05/min
- Tavus Pricing 2026
- Runway API Pricing
- Luma Dream Machine Pricing
- Kling AI 3.0 Guide
- Hailuo MiniMax pricing
- Sora 2 API Pricing 2026
- Google Veo 3 Pricing
- ElevenLabs API Pricing
- ElevenLabs UA review
- OpenAI gpt-4o-mini-tts Pricing
- Yandex SpeechKit Pricing
- Murf AI / Resemble Pricing
- Replicate vs Modal vs RunPod 2026
- Shotstack Pricing
- Creatomate vs JSON2Video
- LLM API Pricing Comparison 2026
- DeepSeek V4 vs Opus 4.7 vs GPT-5.5
- Pika 2.2 Image-to-Video
- Real Estate AI Video Tools 2026
- Sora 2 for Real Estate