Open-Source GitHub исследование для present-room.ai-platform.space

Целевой путь финального отчёта: /Users/tsemakhold/home/serverflow/web/present-room.ai-platform.space/www/research/02_opensource_github.md

Я нахожусь в plan mode, поэтому не могу записать в /research/ напрямую. Содержимое ниже — полный финальный отчёт. После выхода из plan mode (или с разрешения пользователя) переношу 1-в-1 в целевой файл.

Дата: 2026-04-25. Стек: PHP 8.5 + jQuery 4 + MySQL 8.4. Self-hosted на VPS 8GB не пойдёт (нужен GPU 16-80GB) — все ML вызывается через managed GPU API (Replicate / Modal / RunPod / fal.ai) либо коммерческие API.

1. AI TALKING AVATARS (фото + аудио → говорящее лицо)

1.1 Топ open-source модели (по актуальности на апрель 2026)

Модель	GitHub	Stars	Last update	License	Что делает
SadTalker	OpenTalker/SadTalker	13.7k	2026-04-25 (живой)	Other (research+commercial OK)	1 фото → говорящая голова с движением головы. CVPR 2023, де-факто стандарт
Wav2Lip	Rudrabha/Wav2Lip	13.0k	2026-04-25	non-comm research (для коммерции — Sync Labs)	Lipsync на ГОТОВОЕ видео. Лучший лип-синк, но НЕ статичное фото
LivePortrait	KlingAIResearch/LivePortrait	18.2k	2026-04-25	Other	ByteDance. Driving-видео + фото → анимация. Реалистичная мимика и эмоции. Стандарт 2025-26
MuseTalk	TMElyralab/MuseTalk	5.7k	2026-04-25	Other (Tencent)	Real-time lipsync 30+ FPS. Latent space inpainting. Лучший для дубляжа существующих видео в realtime
AniPortrait	Zejun-Yang/AniPortrait	5.0k	2026-04-24	Apache 2.0	Audio-driven фотореалистичная портретная анимация
EchoMimic v1	antgroup/echomimic	4.2k	2026-04-24	Apache 2.0	Ant Group (Alipay). Editable landmarks, AAAI 2025
EchoMimic v2	antgroup/echomimic_v2	4.5k	2026-04-25	Apache 2.0	Полу-телесная анимация (не только лицо). CVPR 2025
EchoMimic v3	antgroup/echomimic_v3	0.9k	2026-04-25	Apache 2.0	1.3B параметров, унифицированный multi-modal. AAAI 2026
LatentSync	bytedance/LatentSync	5.6k	2026-04-25	Apache 2.0	ByteDance. Stable Diffusion для lipsync. Коммерчески свободный
Real3DPortrait	yerfor/Real3DPortrait	1.1k	2026-04-22	MIT	One-shot 3D talking portrait. ICLR 2024 Spotlight
JoyHallo	jdh-algo/JoyHallo	0.5k	2026-03-31	MIT	Mandarin-оптимизированный Hallo
SkyReels-A1	SkyworkAI/SkyReels-A1	0.6k	2026-04-12	Other	Expressive portrait animation (DiT)
HunyuanVideo-Avatar	Tencent-Hunyuan/HunyuanVideo-Avatar	2.1k	2026-04-24	Other (Tencent)	Аватар-видео из видео-foundation модели
Linly-Talker	Kedreamix/Linly-Talker	3.3k	2026-04-24	MIT	Готовая платформа: LLM + Whisper + SadTalker. Edu-сценарий
LiveTalking	lipku/LiveTalking	7.5k	2026-04-25	Apache 2.0	Real-time стриминг digital human (WebRTC)
AIGCPanel	modstart-lib/aigcpanel	4.9k	2026-04-25	Apache 2.0	Готовый "all-in-one" UI для локального деплоя digital human

1.2 Закрытые / proprietary (НЕ open)

Модель	Статус	Доступ
EMO (Alibaba)	НЕ выпущено в open. Только paper + демо	Через Alibaba Cloud Tongyi (китайский регион)
Hedra Character-1/2/3	Closed-source	hedra.com API ($)
VASA-1 (Microsoft)	НЕ выпущено публично. Microsoft Research отказались релизить из-за этики	Нет
OmniHuman-1 (ByteDance)	НЕ open. Paper февраль 2025, демо есть, кода нет	Через Dreamina/Jimeng (ByteDance app)
Sora 2 talking	Closed (OpenAI)	API через OpenAI

1.3 Качество и характеристики

Модель	VRAM	Время на 1 сек видео (A100)	Качество губ	Качество эмоций
Wav2Lip	4 GB	~0.3-0.5 сек	★★★★★	★★ (статичная голова)
SadTalker	6-8 GB	~3-5 сек	★★★	★★★ (movement OK)
MuseTalk	8 GB	~0.03 сек (real-time 30 FPS)	★★★★	★★★
LivePortrait	8 GB	~0.5 сек	★★★★	★★★★★
Hallo / Hallo2	16-20 GB	~10-15 сек	★★★★★	★★★★
LatentSync	12 GB	~5 сек	★★★★★	★★★★
EchoMimic v2/v3	16 GB	~8-12 сек	★★★★	★★★★★ (semi-body)

1.4 Managed API доступ

Модель	Replicate	fal.ai	Modal/RunPod (cog/template)
SadTalker	`cjwbw/sadtalker` ~$0.02-0.05/run	`fal-ai/sadtalker` ($0.03)	RunPod template
Wav2Lip	`devxpy/cog-wav2lip` ~$0.003/sec	да	да
LivePortrait	`fofr/cog-comfyui-liveportrait` ~$0.01/sec	`fal-ai/live-portrait` ($0.05/video)	да
MuseTalk	community cog ~$0.01/sec	да	да
Hallo2	`fofr/hallo2` ~$0.05-0.15/run	да	manishkj007/hallo2-worker
LatentSync	официальный cog	да	да
EchoMimic v2	community cog	да	да

2. TEXT-TO-SPEECH (РУССКИЙ / УКРАИНСКИЙ) для риэлтора

2.1 Open-source движки

Движок	GitHub	Stars	License	Русский	Украинский	Voice cloning
GPT-SoVITS	RVC-Boss/GPT-SoVITS	56.9k	MIT	★★★★★ (топ для славянских)	★★★★ (через few-shot)	1 минута → клон. ЛУЧШИЙ для нашего кейса
F5-TTS	SWivid/F5-TTS	14.4k	MIT	★★★★	★★★	Zero-shot, flow matching
XTTS-v2 (Coqui)	coqui-ai/TTS	40k+ (archived)	MPL 2.0	★★★★ (16 яз. вкл. RU)	★ (не нативный)	6 сек → клон, 85-95% similarity
StyleTTS2	yl4579/StyleTTS2	6.2k	MIT	через fine-tune	через fine-tune	Voice cloning, human-level
Tortoise-TTS	neonbjb/tortoise-tts	14.8k	Apache 2.0	★★ (медленно, EN-биас)	★	Высокое качество, но 1 мин = 5+ мин генерации
Bark (Suno)	suno-ai/bark	39k	MIT	★★★	★★	Без cloning, но multi-lingual
OpenVoice (MyShell)	myshell-ai/OpenVoice	32k+	MIT	★★★	★★	Voice cloning + tone color control
YourTTS	предшественник XTTS	-	MPL 2.0	★★★	★	Старее XTTS-v2, хуже
ChatterboxTTS (Resemble)	resemble-ai/chatterbox	4k+	MIT	★★★	★★	Production-grade open-source. Apr 2025
Silero TTS	snakers4/silero-models	6k+	AGPL+commercial	★★★★ (нативный RU)	★★★ (нативный UK)	Без cloning, но БЕСПЛАТНО, оффлайн, CPU

2.2 Лучший выбор для русского/украинского риэлтора

Победитель: GPT-SoVITS — 56k звёзд, активно развивается, нативно тренируется на 1 минуте речи, многоязычный (русский = первоклассный), коммерческая лицензия MIT.

Второй вариант: Silero TTS — если voice cloning не нужен (готовые голоса). Работает на CPU, бесплатно, нативная поддержка русского и украинского.

Третий вариант: F5-TTS — самый быстрый рост (14k звёзд за полгода), хорошее качество zero-shot.

2.3 Managed API цены

Сервис	Цена	RU	UK	Cloning
ElevenLabs	$0.18/1k chars (Pro)	★★★★★	★★★★	Да (instant + professional)
OpenAI TTS	$15/1M chars	★★★	★★	Нет
Replicate XTTS	~$0.0003/char	★★★★	★★	Да
Replicate F5-TTS	~$0.0002/char	★★★★	★★★	Да
fal.ai (XTTS/F5)	$0.05-0.10 per generation	★★★★	★★	Да
Yandex SpeechKit	от 0.16₽/100 chars	★★★★★ (RU)	★★★	Да (yc Premium)
MS Azure Speech	$16/1M chars	★★★★	★★★★	Да (Custom Neural)
Google Cloud TTS	$4-16/1M chars	★★★★	★★★	Да (Studio voices)

3. IMAGE-TO-VIDEO / CAMERA MOTION (для движения по фото квартиры)

3.1 Open-source модели

Модель	GitHub	Stars	Last update	License	Best для
Open-Sora	hpcaitech/Open-Sora	28.9k	2026-04-25	Apache 2.0	T2V, длинные клипы
HunyuanVideo	Tencent-Hunyuan/HunyuanVideo	12.0k	2026-04-25	Other (Tencent)	T2V SOTA, 13B параметров
HunyuanVideo-1.5	Tencent-Hunyuan/HunyuanVideo-1.5	4.4k	2026-04-24	Other	Лёгкий, быстрее
HunyuanVideo-I2V	Tencent-Hunyuan/HunyuanVideo-I2V	1.8k	2026-04-20	Other	Image-to-Video кастомизация
CogVideoX (THUDM)	zai-org/CogVideo	12.7k	2026-04-25	Apache 2.0	T2V + I2V, дружелюбный VRAM
LTX-Video	Lightricks/LTX-Video	10.1k	2026-04-25	Apache 2.0	Real-time T2V/I2V на consumer GPU
LTX-2	Lightricks/LTX-2	6.1k	2026-04-25	Other	Audio-video совместное поколение
AnimateDiff	guoyww/AnimateDiff	12.1k	2026-04-25	Apache 2.0	I2V через SD checkpoints
Open-Sora-Plan (PKU)	PKU-YuanGroup/Open-Sora-Plan	12.2k	2026-04-25	MIT	Open Sora reproduction
SkyReels-V2	SkyworkAI/SkyReels-V2	6.8k	2026-04-25	Other	Infinite-length фильмы
SkyReels-V3	SkyworkAI/SkyReels-V3	0.4k	2026-04-25	Other	Multimodal video gen
Stable Video Diffusion	Stability-AI/generative-models	25k	(2024)	non-comm	I2V, NEDопустимо для коммерции без license
ToonCrafter	Doubiiu/ToonCrafter	6.0k	2026-04-23	Apache 2.0	Интерполяция между 2 кадрами (cartoon, но работает на real тоже)
StreamingT2V	Picsart-AI-Research/StreamingT2V	1.6k	2026-04-24	research	Длинные видео, CVPR 2025
TeaCache	ali-vilab/TeaCache	1.3k	2026-04-25	Apache 2.0	Ускорение видео-диффузии 2-5х

3.2 Closed (закрытые)

LumaLabs Dream Machine / Ray2 — closed, API $$$
Runway Gen-3 / Gen-4 — closed, $0.05-0.10/сек видео
Sora 2 / Sora Turbo — closed (OpenAI), API в pro plan
Kling AI 2.x — closed (китайский), free tier есть
Hailuo / MiniMax video — closed, дешёвые тарифы
Pika 2.0 — closed
Wan 2.1 / Wan 2.2 (Alibaba) — открыли веса, но репозиторий перемещался; искать Wan-Video/Wan2.1 и alibaba-wan на HF

3.3 Что лучше для real estate (квартирные фото → видео-обзор)

Для движения камеры по статичной квартире нужны:

Image-to-Video с camera control — задать траекторию ("orbit", "pan-left", "zoom-in", "dolly-forward")
Длительность 5-10 секунд на фото
Реалистичность интерьера (не cartoon)

Топ-3 кандидата:

Модель	Camera control	VRAM	Скорость	Replicate
CogVideoX-5B I2V	через prompt	16-24 GB	5-10 мин на 6 сек	`cogvideox-5b-i2v` ($0.10/run)
HunyuanVideo-I2V	через prompt	60+ GB FP16 / 24 GB FP8	8-15 мин	community cog
LTX-Video	через prompt	12-16 GB	10-30 сек на 5 сек видео	`lightricks/ltx-video` ($0.02-0.05/run)
Stable Video Diffusion XT	motion bucket	16 GB	~3 мин	`stability-ai/stable-video-diffusion`
Wan 2.1 / 2.2 I2V	camera LoRA	16-24 GB	3-8 мин	`wavespeedai/wan-2.1-i2v-720p`

Для нашего кейса (real estate): LTX-Video (скорость+цена) для MVP, Wan 2.2 I2V для качества (оба открытых).

3.4 Альтернатива: классический Ken Burns / 3D-параллакс

Для статичных квартир гораздо дешевле не использовать GenAI, а:

peterson-ken-burns-effect (Python/FFmpeg) — pan/zoom за копейки
3D-Photo-Inpainting (Facebook Research) — стерео из 1 фото + параллакс камеры
Gaussian Splatting из 5-10 фото квартиры → реальный 3D walkthrough

4. AI VIDEO PIPELINE / ORCHESTRATION

Платформа	GitHub	Stars	License	Назначение
ComfyUI	Comfy-Org/ComfyUI	110.0k	GPL-3.0	Граф-нодовый workflow для всех моделей выше
ComfyUI-Manager	Comfy-Org/ComfyUI-Manager	14.4k	GPL-3.0	Управление пакетами
AIGCPanel	modstart-lib/aigcpanel	4.9k	Apache 2.0	One-click digital human stack
Fay	xszyou/Fay	12.7k	GPL-3.0	Digital human framework + LLM bridge
TTS-WebUI	rsxdalv/TTS-WebUI	3.1k	MIT	Все TTS под одним UI
TTS-Audio-Suite	diodiogod/TTS-Audio-Suite	0.9k	Other	ComfyUI multi-engine TTS
StabilityMatrix	LykosAI/StabilityMatrix	8.0k	AGPL-3.0	Установка SD/SDXL/Comfy в один клик

ComfyUI workflows для real estate / talking avatar:

kijai/ComfyUI-LivePortraitKJ (2.2k) — продвинутый LivePortrait
kijai/ComfyUI-CogVideoXWrapper (1.5k) — CogVideoX
kijai/ComfyUI-HunyuanVideoWrapper (2.6k) — HunyuanVideo
Lightricks/ComfyUI-LTXVideo (3.5k) — LTX
chaojie/ComfyUI-MuseTalk (0.3k) — MuseTalk
ShmuelRonen/ComfyUI-LatentSyncWrapper (0.9k) — LatentSync
smthemex/ComfyUI_EchoMimic (0.7k) — EchoMimic
sieve-community/sievesync (0.05k) — pipeline MuseTalk + LivePortrait + CodeFormer

5. PHP-FRIENDLY AI VIDEO API (что легко вызвать из PHP)

Все ниже — REST API. PHP 8.5 + curl + наш BaseApiClient (скилл api-integrator).

5.1 Managed GPU платформы

Платформа	Модель оплаты	Сильные стороны	Слабые
Replicate	per-second ($0.000225/sec T4 → $0.001400/sec A100)	Огромный каталог. REST API из коробки. Webhooks	Не самый дешёвый. Cold start
fal.ai	per-call (часто $0.02-0.10)	Самый быстрый inference. Streaming. Готовые модели	Меньший каталог
Modal	per-second ($3.95/hr H100) + scale-to-zero	DX отличный. Можно деплоить свои cog	Дороже Runpod при высокой нагрузке
RunPod Serverless	per-second ($1.99/hr H100)	Дешевле всех. Есть templates	DX хуже Modal. Cold start длиннее
HuggingFace Inference Endpoints	$0.06-1.50/hr GPU	Прямой деплой из HF Hub	Дороже на больших объёмах
Banana	per-second	Быстрый деплой	Менее популярна
Together AI	per-token / per-second	Топ за low-latency text	Меньше видео-моделей

5.2 Готовые avatar/video API (closed source)

API	Цена	RU/UK	Real-time	Webhook
HeyGen	$24-89/мес + кредиты, ~$0.30-1.00/мин видео	★★★★	нет	да
D-ID	$5.9/мес базовый, API $0.02/сек	★★★★	да (через стрим API)	да
Synthesia	$22-67/мес	★★★★	нет	enterprise
DeepBrain AI (Korea)	$30/мес	★★★	да	да
Hedra	$9-35/мес, API per-credit	★★★★ (Character-3)	нет	да
Tavus	$0.20/мин, real-time	★★★	да	да
Vidnoz	freemium 2 мин/день	★★★	нет	через AppyPie
Kling AI API	$0.05-0.20/сек	★★★★	нет	да
MiniMax / Hailuo	дёшево, $0.03-0.08/сек	★★★★★ (китайский регион)	нет	да
Pika API	$0.05-0.15/сек	★★★	нет	да
Runway Gen-3 API	$0.05-0.10/сек	★★★	нет	да
Sora 2 API (OpenAI)	$0.10-0.50/сек (по тарифу)	★★★	нет	через polling
Elai.io	$23/мес	★★★★	нет	да
Vidu (Shengshu)	копейки, китайский	★★★	нет	да

6. REAL ESTATE SPECIFIC

6.1 Open-source

graphdeco-inria/gaussian-splatting (21.5k, ★★★★★) — оригинал 3DGS. Из 30-50 фото квартиры → интерактивный 3D-walkthrough в браузере (через playcanvas/supersplat 4.6k или Three.js)
nerfstudio-project/gsplat (4.9k) — CUDA rasterization
dreamgaussian/dreamgaussian (4.3k) — генеративный 3D из 1 фото за минуты
playcanvas/supersplat (4.6k, MIT) — браузерный редактор 3DGS

6.2 Closed/SaaS для real estate

Polycam / Luma Genie — фото → 3D walkthrough
Matterport — стандарт индустрии, $15-309/мес
Reonomy / VirtualStagingAI / ApplyDesign — virtual staging $0.99-29/комната
Image enhancement: REAL-ESRGAN (xinntao/Real-ESRGAN), GFPGAN, CodeFormer для улучшения квартирных фото перед видео-генерацией

6.3 Floor plan generators

shmuelzon/home-assistant-floor-plan (1.0k) — генератор floor plan для Home Assistant
m-agour/Plannify — residential floor plan
z-aqib/Floor-Plan-Generator-Using-AI — CSP-based AI

(специально для real estate видео-обзоров готовых open-source платформ НЕ найдено)

7. ЧТО ПОЯВИЛОСЬ В 2025-2026 (важное)

EchoMimic v3 (Ant Group, AAAI 2026) — 1.3B параметров, multi-modal multi-task
HunyuanVideo-Avatar (Tencent) — авторские аватары на базе видео-foundation модели
OmniHuman-1 (ByteDance, февраль 2025) — закрытый, но самый впечатляющий по демо. Доступен через Dreamina/Jimeng
LatentSync (ByteDance) — стандарт lipsync 2025-2026 (заменяет Wav2Lip для коммерции)
LTX-Video / LTX-2 (Lightricks) — real-time видео на consumer GPU. Лучшее соотношение цена/скорость
HunyuanVideo 1.5 — лёгкий вариант (декабрь 2025)
Wan 2.2 (Alibaba) — открытые веса видео-модели, конкурент Sora
GPT-SoVITS v2 — нативно русский с few-shot
F5-TTS — flow matching, быстро и качественно
SkyReels-V2/V3 (Skywork) — infinite длина, multimodal
Sora 2 (OpenAI) — closed, но API доступно

8. РЕКОМЕНДУЕМЫЙ ТЕХНИЧЕСКИЙ СТЕК

8.1 Лучшая комбинация для MVP (быстро, дёшево, хорошо)

Цель: запустить за 1-2 недели, тестировать гипотезу.

┌─────────────────────────────────────────────────────────┐
│ MVP STACK (через managed API, никакого self-hosting)    │
├─────────────────────────────────────────────────────────┤
│ 1. Текст обзора (LLM)                                   │
│    Claude API Platform (наш прокси): claude-haiku-4-5  │
│    ~$0.001-0.005 на скрипт обзора                       │
│                                                         │
│ 2. TTS (озвучка риэлтора)                               │
│    Replicate XTTS-v2 или fal.ai F5-TTS                  │
│    ~$0.05-0.15 на 60 сек аудио                          │
│    (готовый голос риэлтора через voice cloning)         │
│                                                         │
│ 3. Talking head (фото риэлтора + аудио)                 │
│    Replicate SadTalker или fal.ai LivePortrait          │
│    ~$0.03-0.10 на видео-сегмент 5-10 сек                │
│                                                         │
│ 4. Камера-движение по квартирным фото                   │
│    Replicate LTX-Video I2V                              │
│    ~$0.05-0.10 на 5 сек видео                           │
│    Альтернатива: Ken Burns FFmpeg ~$0 (просто pan/zoom) │
│                                                         │
│ 5. Сборка видео                                         │
│    FFmpeg на VPS 173.242.56.80 (бесплатно)              │
│    Layout: talking head в углу + B-roll квартиры        │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (MVP):

LLM скрипт: $0.005
TTS: $0.10
Talking head: 6 сегментов × $0.05 = $0.30
Камера-движение: 6 фото × $0.05 = $0.30
FFmpeg сборка: $0
ИТОГО: ~$0.71 за 1 минутное видео

8.2 Production stack (качество + масштабируемость)

┌─────────────────────────────────────────────────────────┐
│ PRODUCTION STACK                                        │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: Claude Sonnet 4.7 (через прокси) — лучше скрипт │
│ 2. TTS: ElevenLabs Pro (RU/UK топ + voice cloning)      │
│    ИЛИ Yandex SpeechKit (RU нативный)                   │
│ 3. Talking head: HeyGen Avatar IV API ИЛИ Hedra API     │
│ 4. Камера: Wan 2.2 I2V (Replicate) или Sora 2 API       │
│ 5. Enhancement: Topaz Video AI / Real-ESRGAN на VPS     │
│ 6. Очередь: MySQL + cron worker на VPS (паттерн         │
│    pattern-frame queue, dead-letter)                    │
│ 7. Хранилище видео: CDN serflow.cdn.express             │
│ 8. Мониторинг: observability + Mercure для real-time    │
│    progress в SPA                                       │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (Production):

LLM: $0.03
ElevenLabs TTS: 1500 chars × $0.18/1k = $0.27
HeyGen avatar 60 сек: $1.00-2.00
Wan I2V (6 фото): 6 × $0.15 = $0.90
ИТОГО: ~$2.20-3.20 за 1 минутное видео

8.3 Бюджетный вариант (китайские/корейские API)

┌─────────────────────────────────────────────────────────┐
│ BUDGET STACK (китайская экосистема)                     │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: DeepSeek V3 (~$0.27/1M tokens)                  │
│ 2. TTS: ByteDance Volcengine TTS / MiniMax T2A          │
│    (~$0.03-0.10 на минуту)                              │
│ 3. Talking head: MiniMax Hailuo или Vidu API            │
│    (~$0.10-0.30 на видео)                               │
│ 4. Камера: Kling AI API ($0.05/сек) или Hailuo ($0.03) │
│ 5. Voice cloning: GPT-SoVITS на RunPod Serverless       │
│    ($0.0006/сек H100, ~$0.50/час)                       │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (Budget):

LLM: $0.005
TTS: $0.05
Talking head: $0.30
Камера: 60 сек × $0.03 = $1.80
ИТОГО: ~$2.15 (но в RU/UK хуже, нужны тесты)

8.4 Премиум стек

┌─────────────────────────────────────────────────────────┐
│ PREMIUM STACK (максимальное качество)                   │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: Claude Opus 4.7 + Extended Thinking             │
│ 2. TTS: ElevenLabs Professional Voice Clone (PVC)       │
│    ($1100 setup, потом $0.18/1k chars + 95% similarity) │
│ 3. Talking head: HeyGen Avatar IV (full body)           │
│    ИЛИ Hedra Character-3                                │
│ 4. Камера: Sora 2 Pro API + Runway Gen-4 (A/B)          │
│ 5. Upscale: Topaz Video AI (4K)                         │
│ 6. Enhancement: GFPGAN + Real-ESRGAN                    │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (Premium):

LLM: $0.10
ElevenLabs PVC: $0.27
HeyGen Avatar IV: $3-5
Sora 2 видео: 60 сек × $0.30 = $18
Upscale Topaz: $0.50
ИТОГО: ~$22-25 за 1 минутное видео

8.5 Self-hosted вариант (через GPU cloud, не наш VPS 8GB)

Наш VPS 173.242.56.80 (4 CPU, 8GB RAM, 0 GPU) НЕ потянет ML. Все модели требуют 16-80 GB VRAM.

Вариант: orchestration на VPS, inference на RunPod Serverless / Modal.

┌─────────────────────────────────────────────────────────┐
│ SELF-HOSTED НА RUNPOD SERVERLESS                        │
├─────────────────────────────────────────────────────────┤
│ Templates на RunPod (H100 spot $1.99/hr):               │
│  - SadTalker / LivePortrait template                    │
│  - GPT-SoVITS template                                  │
│  - LTX-Video template                                   │
│  - ComfyUI с workflows                                  │
│                                                         │
│ Идея: PHP на VPS пушит job в Redis/MySQL, RunPod worker │
│ забирает, генерит, кладёт результат на CDN, шлёт        │
│ webhook обратно на VPS, Mercure пушит progress в SPA.  │
└─────────────────────────────────────────────────────────┘

Cost при self-hosted на RunPod (60-sec video, пока worker prewarmed):

LTX-Video 6 сегментов: 6 × 30 сек × $1.99/3600 = $0.10
GPT-SoVITS 60 сек: 30 сек GPU × $1.99/3600 = $0.017
LivePortrait 60 сек: 6 × 5 сек × $1.99/3600 = $0.017
ИТОГО: ~$0.13 (но без cold starts, queue, надёжности — это голая GPU цена)

Реалистично с overhead (cold starts + retry + storage): ~$0.50-1.00 за минуту видео

8.6 Итоговая таблица сравнения

Вариант	Cost/min	Качество	Скорость	Сложность интеграции
MVP (Replicate/fal)	$0.71	7/10	2-5 мин	★ простая
Budget (китайские)	$2.15	6/10 (в RU спорно)	3-7 мин	★★ средняя
Production	$2.20-3.20	8.5/10	3-5 мин	★★★ высокая
Premium	$22-25	9.5/10	5-10 мин	★★★★
Self-hosted RunPod	$0.50-1.00	7/10	2-4 мин (warm)	★★★★★ очень сложно

9. КЛЮЧЕВЫЕ ССЫЛКИ И ИСТОЧНИКИ

Awesome lists

MrNeRF/awesome-3D-gaussian-splatting (8.5k) — 3DGS
xlite-dev/Awesome-DiT-Inference (0.5k) — оптимизация diffusion
hua1995116/awesome-ai-painting (11.7k) — общий AI art

Reddit / HN

r/StableDiffusion — обсуждения lipsync моделей
r/LocalLLaMA — TTS/voice cloning
HackerNews "Show HN" по SadTalker/LivePortrait

Web research (апрель 2026)

pixazo.ai/blog/best-open-source-lip-sync-models — топ-8 lipsync моделей
lipsync.com/blog/open-source-lip-sync — Wav2Lip vs MuseTalk
aifreeforever.com/blog/lip-sync-ai — 21 инструмент
bentoml.com/blog/exploring-the-world-of-open-source-text-to-speech-models — TTS обзор
huggingface.co/blog/norwooodsystems/multilingual-voice-cloning-with-xtts-v2 — XTTS multilingual
designrevision.com/blog/heygen-alternatives — HeyGen альтернативы

10. РЕКОМЕНДАЦИЯ ДЛЯ present-room.ai-platform.space

Делать MVP на Replicate / fal.ai с первого дня:

Скрипт обзора → Claude Haiku 4.5 (через наш прокси)
Голос риэлтора → клонируем 1 раз через Replicate F5-TTS (или ElevenLabs если нужен топ для RU/UK)
Видео риэлтора → Replicate SadTalker (быстро, $0.05/run) ИЛИ Hedra Character-3 API (топ качество, $0.20-0.50)
Видео квартиры → Replicate LTX-Video I2V для движения камеры по фото ($0.05/run)
Сборка → FFmpeg на VPS

Почему не self-hosted: нет GPU на VPS. Покупка/аренда GPU = $200+/мес фикс. Replicate платится только при генерации = пропорционально клиентам.

Когда переключаться на RunPod self-hosted: при объёме 500+ видео/день (тогда фикс GPU дешевле per-call API).

Архитектура PHP:

pattern-frame queue для задач (MySQL job table + cron worker)
pattern-frame mercure-realtime для прогресса в кабинете
BaseApiClient (скилл api-integrator) для каждого API провайдера
Dead-letter queue для retry (правило #30)
CDN serflow.cdn.express для готовых видео