Технические компоненты present-room.ai-platform.space

Note (Plan mode): Исходно отчет должен был лежать в /Users/tsemakhold/home/serverflow/web/present-room.ai-platform.space/www/research/03_technical_components.md. В режиме Plan можно писать только в plan-файл; перенести содержимое в research-папку — ОДНОЙ командой cp после выхода из Plan mode.

Дата: 2026-04-25. Контекст: AI-сервис генерации видео-обзоров квартир (фото квартиры + аватар риэлтора → говорящий риэлтор "ходит" по квартире). Цены актуальны на апрель 2026.


1. AI ВИДЕО ГЕНЕРАЦИЯ

1.1. Talking Avatar API (озвученный риэлтор-аватар)

Сервис Цена RU/UA Кастомный аватар (фото) Длина Разрешение Замечания
HeyGen $0.50/мин (Scale tier API) или $0.99/мин (Pro). Avatar IV ≈ 6 кред/мин = $3-6/мин RU да, UA — частично (175 языков но UA не везде явно) Custom Digital Twin ТОЛЬКО Enterprise (минимум по запросу) До 30 мин до 1080p, Avatar IV 4K Лидер по lipsync. API стабильный. Photo Avatar (генерация по 1 фото) дешевле клона
Synthesia Enterprise only, $20-100k/год 80+ языков (RU, UA в Studio) Personal Avatar (3-5 мин видео обучение) unlimited 1080p / 4K Enterprise Корпоративный, дорогой, медленный onboarding кастомных аватаров (~7 дней)
D-ID $5.90/мин API. Studio от $4.70/мес RU да, UA да (через Microsoft TTS bridge) Photo→Talk (одно фото!) — встроено до 5 мин 720p / 1080p Самый дешевый "1 фото → говорящий аватар". НО качество lip-sync хуже HeyGen. Подходит для MVP
Hedra Character-3 $0.05/мин streaming ($3/час live), API кредиты от $10/мес. Февраль 2026 — полный API Multi-language По 1 фото + аудио (omnimodal) до 15 мин 1080p САМЫЙ ДЕШЕВЫЙ из качественных. Эмоции, micro-expressions, full-body motion. Фаворит для нашего use-case
Tavus $39/мес (Hobbyist) до $199/мес (Business) + Enterprise от $10k/мес 30+ языков Personal Avatar (Business+) до 5 мин HD Хорош для real-time conversational video (с собеседником), не для нарративов
Vidnoz AI от $14.99/мес, 460+ голосов, $19.99 = 15 мин/мес RU да, UA — слабо Custom (Pro+) до 5 мин 1080p Дешевый, китайский. API менее зрелый
Akool $30 = 600 кред / $109 = 2400 кред (4K) 175+ языков Custom (Pro+) до 10 мин 4K (Pro+) Lip-sync video translator — хорошо для дубляжа
DeepBrain AI Enterprise, контракты от $30/мес базовый 80+ языков (RU, UA) Custom (нужно ~4 мин видео) до 20 мин 4K Корейский корпоративный. Долгий onboarding
Captions AI $9.99-$24.99/мес, API в beta 28+ языков Photo Avatar до 60 сек 720p Сильный авто-сабтайтлы. UI слабый для long-form
Argil AI freemium → unlimited tier EN основной, RU/UA ограниченно По 2 мин видео до 5 мин 1080p Новый игрок, целит в creators (TikTok-стиль)

Рекомендация: для MVP — Hedra Character-3 ($0.05/мин streaming, API через api.hedra.com). Резерв — D-ID ($5.90/мин но Photo→Talk без обучения). HeyGen — когда клиент готов платить премиум за качество и доверится Enterprise onboarding.

1.2. Image-to-Video (превратить фото квартиры в видео-обход)

Модель Цена за 1с видео Длина Разрешение Camera control Стабильность интерьера Замечания
Runway Gen-4 $0.12/с ($0.05/с Turbo) 5/10с 1080p Лучший в классе (Camera Motion Brush, Director Mode) Высокая. Gen-4.5 — temporal consistency не плывет Best для real estate B-roll. API стабильный, $0.01/credit
Runway Gen-4 Turbo $0.05/с 5/10с 720p/1080p Простой Хорошая Бюджетный вариант, чуть хуже композиции
Sora 2 (стандарт) $0.10/с (720p) 4/8/12с 720p Средний Высокая API через ChatGPT Plus/Pro (нужна подписка). Жесткие content policies (real estate ОК)
Sora 2 Pro $0.30-0.50/с (1024p) до 25с до 1024p Хороший Очень высокая Дорого, но кинематографичный результат
Veo 3 (Vertex AI) $0.50/с видео, $0.75/с с аудио 4-8с 1080p Хороший, через промпт Лучшая в классе Самый стабильный интерьер. Но дорогой и квоты Vertex
Veo 3.1 Lite $0.05/с (Vertex) до 8с 720p Базовый Хорошая После 7 апреля 2026 цена ниже. Сильный value
Kling 3.0 $0.075/с (i2v), $0.1125/с (с reference) 5/10с 720p/1080p Средний Средняя — мебель иногда плывет Китайский, дешевый. Хорош для абстрактных сцен
Kling 2.6 Pro $0.07/с (без аудио), $0.14/с (с аудио) 5/10с 1080p Средний Средняя-высокая Через fal.ai
Hailuo 02 Standard $0.045/с (768p) 768p Слабый — авто-камера Средняя Самый дешевый. Подходит для коротких клипов
Hailuo 02 Pro $0.08/с (1080p) 1080p Средний Средняя Хороший баланс цена/качество
Pika 2.2 $0.20/5с (720p), $0.45/5с (1080p) = $0.04-0.09/с 720p/1080p Хороший (Pikaframes — указать первый и последний кадр) Средняя Pikaframes особенно полезен для "проход по комнате" — задаешь старт+финиш
Vidu от $0.035/М токенов через Atlas Cloud 4/8с 1080p Средний Средняя Reference-to-video — несколько фото для consistency
HunyuanVideo self-hosted (60-80GB VRAM) 5-15с 720p Слабый Средняя Open-source, требует свои GPU. Для нас не вариант (8GB VPS RAM)

Рекомендация для real estate:

Важно для real estate: AI-video НЕ заменит реальную съемку для премиум-листингов. Текущий best-practice — гибрид: реальные фото остаются основой (через Ken Burns эффект — pan/zoom), а AI-видео используется для переходов между комнатами и B-roll вставок. Полностью AI-обход квартиры пока создает галлюцинации мебели и архитектуры.


2. TEXT-TO-SPEECH (озвучка риэлтора)

Сервис Цена за 1k симв RU качество UA качество Voice cloning Эмоции API
ElevenLabs Multilingual v2 ~$0.30/1k (Pro $99/100к credits) Топ Топ — отдельно вложились в UA Instant ($5), Professional ($22+) Да (style/stability params, v3 alpha) Лучший API
ElevenLabs Flash v2.5 ~$0.15/1k Очень хорошо Хорошо Да Меньше эмоций <75ms latency
OpenAI gpt-4o-mini-tts $0.015/мин ($0.60/М input + $12/М аудио токенов) Хорошо Средне Нет (instructions-based emotion) Через "instructions" param — да Простой, дешевый
OpenAI tts-1 / tts-1-hd $15/М симв (HD: $30/М) Хорошо Средне Нет Минимум Старая модель
Yandex SpeechKit $0.000020/символ ≈ $0.02/1k симв Топ для RU (premium voices) UA нет Custom voices Enterprise Базовые эмоции Российский, для UA не подходит
Google Cloud TTS $4-16/М симв (WaveNet/Neural2) Хорошо Хорошо Custom Voice Enterprise Через SSML Стабильный, $300 free credits
Azure Speech $4-16/М симв Хорошо Хорошо Neural Custom Voice (Enterprise) Через SSML emotion styles RU/UA хорошо
Murf AI Falcon API ~$0.01/мин (Creator $29/мес) Средне Слабо Да Базовые <55ms latency, дешево
Resemble AI $0.03-0.08/1k (volume) Хорошо Средне Лучший cloning (rapid voice clone) Да Сложнее API
Play.ht ЗАКРЫТ декабрь 2025 (купил Meta) НЕ ИСПОЛЬЗОВАТЬ
Voicemod AI $14.99/мес creators Средне Слабо Да (entertainment focus) Да НЕ для серьезного контента

Рекомендация:


3. LLM ДЛЯ ГЕНЕРАЦИИ СКРИПТА

Модель Input $/M Output $/M RU/UA качество Vision Замечания
Claude Opus 4.7 $5 $25 Превосходное Да После 67% price drop. 1M context. Лучший для нюансов "продающего" текста
Claude Sonnet 4.6 $3 $15 Отличное Да Хороший баланс. Для скриптов 60-90с — достаточно
Claude Haiku 4.5 ~$0.80 ~$4 Очень хорошее Да Самый быстрый. Для batch генерации
GPT-5.5 $2.50 $15 (или $30/$180 Pro) Отличное Да Альтернатива Claude. Нюансы продающего текста — слегка хуже
GPT-5.4 $2.50 $15 Очень хорошее Да Стандарт для большинства задач
Gemini 2.5 Pro ~$1.25 ~$5 Хорошее Да (Vision Flash отлично) Хорош для длинного контекста
Gemini 2.5 Flash $0.15 $0.60 Хорошее Да Самый дешевый для vision-задач
DeepSeek V4-Pro $1.74 $3.48 Хорошее (RU чуть слабее Claude) Ограниченно 7-9x дешевле Opus. Cost-sensitive default
DeepSeek V3 $0.27 $1.10 Хорошее Нет Сверх-дешевый текст
Llama 4 (Replicate) ~$0.50 ~$2 Среднее для RU/UA Open через Replicate
Qwen 3 от $0.20 от $0.80 Хорошее (китайский → RU слабее UA) Есть VL версия Через Replicate/Together

Рекомендация для нашего проекта (Claude API Platform уже подключен):

Pipeline на скрипт (60-90с = ~1500 символов = ~400 токенов):


4. VISION (анализ фото квартиры)

Модель Цена Качество описания комнат Распознавание ремонта Замечания
Claude Sonnet 4.6 Vision $3/$15 Отличное Очень хорошее (нюансы евроремонта) Default. Уже подключен через прокси
Claude Haiku 4.5 Vision ~$0.80/$4 Хорошее Хорошее Для batch
GPT-4o Vision $2.50/$10 Отличное Отличное Альтернатива
GPT-5 mini Vision ~$0.50/$2 Очень хорошее Хорошее Cheaper alternative
Gemini 2.5 Flash Vision $0.15/$0.60 Хорошее Среднее Сверх-дешевый. Для batch на 100+ фото
Gemini 2.5 Pro Vision $1.25/$5 Очень хорошее Хорошее Лучше длинного контекста (10+ фото в одном запросе)
Qwen 2.5 VL (Replicate) ~$0.30/$1 Хорошее Хорошее Open-source альтернатива
LLaVA / InternVL self-hosted Среднее Слабое Не оправдано для коммерческого продукта

Рекомендация: Gemini 2.5 Flash для предварительного скрининга фото (классификация комнаты, освещение, состояние), затем Claude Sonnet 4.6 для финального промпта со всеми фото (5-15) одним вызовом — ~$0.10-0.20 на квартиру.

Промпт-стратегия: ОДИН multimodal вызов с 5-15 фото квартиры → структурированный JSON ответ (rooms, features, condition, lighting, vibe). НЕ зацикливаться по одному фото.


5. VIDEO COMPOSITING / EDITING

Сервис Цена Use case Замечания
Shotstack $49=200мин 720p, $99=500мин (FullHD от $0.20/мин) Cloud rendering API, JSON timeline Хорошая документация, RU/UA текст в captions ОК
Creatomate $41=200мин (Essential), $54=2000 credits JSON template-based Дешевле в high-volume, но TTS — отдельные кредиты
JSON2Video $49.95=200мин Full HD JSON timeline, встроенный ElevenLabs+Azure TTS Лучший value. Для нас — TTS сразу в одном вызове
Bannerbear video ~$49/100 видео Templates, social media first Не подходит для long-form
Cloudinary Video API $99+/мес Transformations, не editing Скорее для CDN+resize, не композитинг
FFmpeg на VPS свободно Свой код VPS 4 ядра / 8GB / NVMe — справится с 1080p 60-90с видео в 1-3 мин рендера. Полный контроль. Минус — разработка timeline кода

Рекомендация:

Архитектура composing для MVP:

[Фото 1-5] ──┐
             ├─→ Ken Burns effect (FFmpeg pan/zoom) ─→ B-roll (15с)
[Фото 6+]  ──┘

[Hedra avatar video] (60с) ──┐
                              ├─→ FFmpeg concat + xfade ─→ Final (75с)
[B-roll]                     ──┘

[ElevenLabs voiceover] ──→ overlay audio ─→ subtitles (whisper-1)

6. STORAGE / DELIVERY

Решение Цена Use case
Cloudflare R2 $0.015/GB/мес storage, БЕСПЛАТНЫЙ egress Лучшее для public videos (нет egress fees)
AWS S3 $0.023/GB/мес + $0.09/GB egress Если уже AWS-инфраструктура
наш CDN serflow.cdn.express бесплатно (входит в проект) Default — уже есть в инфраструктуре
bunny.net Stream $0.005/GB/мес delivery HLS adaptive bitrate из коробки

Рекомендация: Использовать /mnt/cdn/ через rclone (FTP cdn3397_vps из CLAUDE.md), 100GB лимит. На стороне приложения — StorageClient класс из скилла storage-api. Для больших объемов (>500 видео) — переход на Cloudflare R2 (бесплатный egress критичен — видео тяжелые).

HLS: для MVP не нужен — раздавать MP4 напрямую (60-90с легкие). При scale → bunny.net Stream или Cloudflare Stream ($1/1000 минут просмотров).


7. INFRASTRUCTURE (тяжелые задачи)

Платформа GPU цена Cold start Биллинг Замечания
Replicate A100-80GB ~$5.04/час, H100 ~$5.50/час 11-60+ сек per-second Простейший API, model marketplace. Хорош для prototyping
Modal Labs H100 $3.95/час, A100 $3.00-4.00/час <1 сек per-second Sub-second cold starts. Best для сериализации. Сложнее setup
RunPod H100 on-demand $2.69-2.99/час, Serverless $5.59/час, A100 $1.89-2.49/час ~4 сек per-minute Самый дешевый. Для sustained workloads
Banana устаревает Сейчас не рекомендуется
Lambda Labs A100 $1.10/час reserved Долгий hourly Для постоянной нагрузки (24/7)
HuggingFace Inference Endpoints T4 $0.60/час, A100 $4.50/час 30-60 сек hourly Управляемые HF модели
fal.ai per-call (модель-специфично) <5 сек per-call Best для готовых video моделей (Kling, Hailuo, Pika) — не нужно self-host

Рекомендация: ДЛЯ MVP self-hosted GPU НЕ НУЖЕН. Используем managed APIs:

Self-host имеет смысл при scale 500+ видео/день, тогда — RunPod Serverless (H100 для open-source моделей типа HunyuanVideo).


АРХИТЕКТУРА MVP — Pipeline 7 шагов

┌──────────────────────────────────────────────────────────────────────────┐
│  USER UPLOADS:                                                            │
│  • 5-15 фото квартиры                                                     │
│  • Параметры (метраж, комнаты, район, цена, стиль: премиум/эконом/семья) │
│  • Выбор аватара (предустановленный / фото своего риэлтора)              │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 1: VISION ANALYSIS (~15 сек, $0.05-0.15)                            │
│  Claude Sonnet 4.6 vision — multimodal вызов с 5-15 фото                  │
│  → JSON: { rooms[], features, condition, lighting, vibe, sellingPoints[] } │
│  Модель через прокси: claude.ai-platform.space mode=direct                │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 2: SCRIPT GENERATION (~10 сек, $0.025-0.05)                         │
│  Claude Sonnet 4.6 — текст 60-90с (~1500 симв) на RU/UA                   │
│  Input: JSON из шага 1 + параметры + стиль                                │
│  Output: { script, scenesByRoom[], cta, voiceInstructions }               │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 3: TTS VOICEOVER (~20 сек, $0.30-0.50)                              │
│  ElevenLabs Multilingual v2 (или Flash v2.5 для бюджета)                  │
│  Voice: предустановленный (мужской/женский) или клон риэлтора             │
│  Input: script + voiceInstructions (style/stability/similarity)           │
│  Output: voiceover.mp3 (~75 сек, 48kHz)                                   │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 4: AVATAR VIDEO (~60-180 сек, $4-6)                                 │
│  Hedra Character-3 API ($0.05/мин streaming для preview ИЛИ                │
│  HeyGen Avatar IV $3-6/мин для финала)                                    │
│  Input: avatarPhoto + voiceover.mp3                                       │
│  Output: avatar.mp4 (75 сек, 1080p, transparent bg или pre-keyed)         │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 5: B-ROLL TRANSITIONS (опционально, $0.50-2.00)                     │
│  Pika 2.2 Pikaframes ИЛИ Runway Gen-4 Turbo                               │
│  • Pikaframes: задаем фото комнаты A (старт) и комнаты B (финиш)         │
│  • Получаем 5с переход. На 4-5 переходов = $1-3                           │
│  Output: transition_1.mp4 ... transition_5.mp4                            │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 6: COMPOSITING (~30-90 сек, бесплатно VPS / $0.30 JSON2Video)       │
│  FFmpeg на VPS (8GB RAM достаточно):                                      │
│  • Ken Burns на статичных фото (zoompan filter)                           │
│  • Overlay аватар на фон комнаты (chromakey если зеленый bg)              │
│  • Concat: intro_photo → room1+avatar → transition1 → room2+avatar → ... │
│  • Add background music (free via Pixabay) ducked under voice             │
│  • Burn-in subtitles (Whisper-1 на voiceover.mp3 → SRT)                   │
│  Output: final.mp4 (1080p, 75 сек, ~15-25MB)                              │
└─────────────────────────┬─────────────────────────────────────────────────┘
                          │
                          ▼
┌──────────────────────────────────────────────────────────────────────────┐
│  STEP 7: STORAGE & DELIVERY (~5 сек, бесплатно)                           │
│  Upload в /mnt/cdn/present-room/{user_id}/{video_id}.mp4                  │
│  → serflow.cdn.express/present-room/...                                   │
│  → user получает URL, share-link, embed code                              │
└──────────────────────────────────────────────────────────────────────────┘

ИТОГО: 7 шагов, total time ~3-5 минут (с rendering Hedra который дольше всех)

Параллелизация: Steps 3 (TTS) и 5 (B-roll) могут идти параллельно с Step 4 (Avatar). Сократит общее время до 2-3 минут.


СЕБЕСТОИМОСТЬ ОДНОГО ВИДЕО (1 минута финала)

Бюджет (минимальная цена) — ~$2.30/видео

Компонент Сервис Цена
Vision (5 фото) Gemini 2.5 Flash $0.02
Script (60-90с) DeepSeek V4-Pro $0.005
TTS (1500 симв RU) ElevenLabs Flash v2.5 $0.20
Avatar video (75с) Hedra Character-3 ($0.05/мин streaming) $0.06
B-roll transitions (3×5с) Hailuo 02 Standard ($0.045/с) $0.68
Compositing FFmpeg на VPS $0.00
Storage наш CDN $0.00
LLM overhead (subtitles, prompts) Haiku 4.5 $0.05
ИТОГО ~$1.05/видео

(Если Hedra streaming не подходит для async — делать через rendered API ~$0.50-1/мин = $1-2 итого)

Стандарт — ~$5-8/видео

Компонент Сервис Цена
Vision Claude Sonnet 4.6 $0.10
Script Claude Sonnet 4.6 $0.05
TTS ElevenLabs Multilingual v2 $0.45
Avatar video HeyGen Avatar IV (6 кред/мин × $0.50 = $3/мин) $3.75 (75с)
B-roll (3×5с переходов) Runway Gen-4 Turbo ($0.05/с) $0.75
Compositing JSON2Video или FFmpeg $0.30 / $0
LLM overhead Sonnet $0.10
ИТОГО ~$5.50/видео

Премиум — ~$15-25/видео

Компонент Сервис Цена
Vision Claude Opus 4.7 (effort=max) $0.30
Script Claude Opus 4.7 $0.15
TTS ElevenLabs Multilingual v2 + Voice Clone $0.50
Avatar video HeyGen Avatar IV 4K (Custom Avatar Enterprise) $6-10
B-roll (5×8с) Veo 3 ($0.50/с) $20
Compositing FFmpeg pro pipeline $0.50
LLM overhead Opus $0.30
ИТОГО ~$28/видео

(При премиум-тарифе для агентств логично возвращаться к гибриду: использовать Veo только на 2-3 ключевых перехода = $5-8 вместо $20)


TIME-TO-MARKET

Фаза Срок Описание
1. Backend skeleton 1 неделя PHP+jQuery SPA из pattern-frame stack-spa, MySQL схема (users, videos, jobs, queue), MercureSSE подключение
2. Upload UI + Vision 1 неделя Загрузка фото (drag-n-drop), интеграция Claude Sonnet vision, сохранение JSON анализа
3. Script + TTS pipeline 1 неделя Claude API для скрипта, ElevenLabs API client (с retry, dead-letter queue из incident-rules #30), preview UI
4. Avatar API + queue 2 недели Hedra/HeyGen integration, async queue worker, статус-tracking через Mercure SSE, retry logic
5. B-roll + Compositing 2 недели FFmpeg pipeline на VPS (zoompan, overlay, concat, xfade), Pika/Runway integration для transitions, subtitles через Whisper
6. Player + Sharing 1 неделя Видео-плеер на странице результата, share links, download MP4, embed code
7. Billing + Auth 1 неделя Lava.top подписки (из pattern-frame lava-payment), credit balance, лимиты по tier
8. QA + полировка 1 неделя E2E тесты Playwright, UX-аудит, дизайн pixel-perfect
9. Production launch 0.5 недели Деплой VPS, мониторинг через observability skill, Telegram алерты

MVP полный (бюджет tier с Hedra): 8-10 недель одной разработчиком. С 2 разработчиками — 5-6 недель.

Lean MVP без custom avatars (только preset аватары + бюджет stack): 4 недели.


РИСКИ

Технические

  1. AI-видео НЕ заменит реальную съемку для премиум-листингов. Главная ставка не на "AI-обход квартиры", а на AI-говорящего риэлтора + Ken Burns по реальным фото + 2-3 AI-перехода. Полностью генерированный обход дает галлюцинации мебели/архитектуры — клиенты будут жаловаться.
  2. Cold start на Avatar API: Hedra/HeyGen rendering 60-180 секунд. Не делать sync — обязательно async через Mercure SSE с прогресс-баром (магия sub-100ms ощущения через optimistic UI).
  3. Rate limits:
    • HeyGen Pro: ~30 req/min на API key — на всплесках (десятки одновременных) нужен queue с throttling
    • ElevenLabs Creator: 5 concurrent requests, выше — Pro/Scale
    • Claude: 1M tpm на Tier 4. Заранее заявить tier upgrade
  4. Sora 2 API доступ: требует ChatGPT Plus/Pro подписки и approval. С 10 января 2026 free tier удален. План B: не закладываться на Sora — Veo 3 альтернатива доступнее.
  5. Voice cloning для риэлтора требует 1-3 минуты чистого аудио. UI должен принимать запись через MediaRecorder (jQuery 4) и отправлять на ElevenLabs IVC endpoint. Качество клонирования RU/UA на 1 минуте — среднее, лучше 3-5 минут.

Юридические / Content Policy

  1. HeyGen / Synthesia / D-ID требуют consent для custom avatars. Запрещено создавать аватар реального человека без видео-согласия. Юридически — рекомендуется чек-бокс "я подтверждаю, что я владелец фото/видео или имею письменное согласие".
  2. Voice cloning: ElevenLabs требует voice consent statement при создании Professional Voice Clone. Inteant Voice Clone — мягче, но рекомендация — записывать consent тем же микрофоном.
  3. Реклама недвижимости в RU/UA: правила контроля. AI-сгенерированные "обходы" должны иметь disclaimer "видео сгенерировано искусственным интеллектом, реальная квартира может отличаться". Без disclaimer — риск исков от покупателей.
  4. Sora 2 / Veo 3 content policies: жесткие на людей-знаменитостей, бренды, сцены недвижимости — обычно ОК. Но нужно проверить на realistic faces в B-roll.

Финансовые / Бизнес

  1. Себестоимость scale: при 1000 видео/мес = $1050 (бюджет) до $28000 (премиум) затрат на API. Маржа MVP — закладывать 3-5x наценку (продажа $5-50 за видео в зависимости от tier).
  2. Hedra Character-3 — новый игрок (февраль 2026 API). Риск изменения цены или закрытия. Обязательно реализовать abstraction layer (AvatarProvider interface), чтобы менять Hedra → HeyGen → D-ID без перекодировки бизнес-логики.
  3. OpenAI Sora 2 политика: январь 2026 убрали free tier. Может еще раз изменить. Не делать критическую зависимость.
  4. Языковая поддержка UA: ElevenLabs выделил UA, но HeyGen — частично. Тестировать конкретные voices на UA перед обещанием клиентам. Yandex SpeechKit для UA НЕ работает — не предлагать.

Операционные

  1. Очередь задач: одна квартира = ~5 минут rendering. На VPS 4 ядра / 8GB RAM нужен PHP queue worker с лимитом параллельности (4-5 одновременных) + retry с exponential backoff (incident-rules #35: 10-12 попыток, 5-30с backoff). Dead-letter queue обязательна (incident-rules #30) — таблица failed_video_jobs с retry_count.
  2. Мониторинг расходов: API costs могут взорваться при баге (бесконечный цикл генерации). Hard cap на user: $X/день на provider, alert в Telegram при 80%. Предохранитель в БД на стоимость одного job.
  3. Конкуренты Vidnoz/Akool/Captions делают то же самое. Дифференциация — качество UA-голосов и продающих скриптов, специализация на real estate, скорость pipeline.
  4. VPS PHP-FPM + SSE: не использовать self-hosted SSE для avatar progress — забивает workers (incident-rules #45). Только через Mercure Hub (mercure.ai-platform.space).

SOURCES