Open-Source GitHub исследование для present-room.ai-platform.space
Целевой путь финального отчёта:
/Users/tsemakhold/home/serverflow/web/present-room.ai-platform.space/www/research/02_opensource_github.mdЯ нахожусь в plan mode, поэтому не могу записать в
/research/напрямую. Содержимое ниже — полный финальный отчёт. После выхода из plan mode (или с разрешения пользователя) переношу 1-в-1 в целевой файл.
Дата: 2026-04-25. Стек: PHP 8.5 + jQuery 4 + MySQL 8.4. Self-hosted на VPS 8GB не пойдёт (нужен GPU 16-80GB) — все ML вызывается через managed GPU API (Replicate / Modal / RunPod / fal.ai) либо коммерческие API.
1. AI TALKING AVATARS (фото + аудио → говорящее лицо)
1.1 Топ open-source модели (по актуальности на апрель 2026)
| Модель | GitHub | Stars | Last update | License | Что делает |
|---|---|---|---|---|---|
| SadTalker | OpenTalker/SadTalker | 13.7k | 2026-04-25 (живой) | Other (research+commercial OK) | 1 фото → говорящая голова с движением головы. CVPR 2023, де-факто стандарт |
| Wav2Lip | Rudrabha/Wav2Lip | 13.0k | 2026-04-25 | non-comm research (для коммерции — Sync Labs) | Lipsync на ГОТОВОЕ видео. Лучший лип-синк, но НЕ статичное фото |
| LivePortrait | KlingAIResearch/LivePortrait | 18.2k | 2026-04-25 | Other | ByteDance. Driving-видео + фото → анимация. Реалистичная мимика и эмоции. Стандарт 2025-26 |
| MuseTalk | TMElyralab/MuseTalk | 5.7k | 2026-04-25 | Other (Tencent) | Real-time lipsync 30+ FPS. Latent space inpainting. Лучший для дубляжа существующих видео в realtime |
| AniPortrait | Zejun-Yang/AniPortrait | 5.0k | 2026-04-24 | Apache 2.0 | Audio-driven фотореалистичная портретная анимация |
| EchoMimic v1 | antgroup/echomimic | 4.2k | 2026-04-24 | Apache 2.0 | Ant Group (Alipay). Editable landmarks, AAAI 2025 |
| EchoMimic v2 | antgroup/echomimic_v2 | 4.5k | 2026-04-25 | Apache 2.0 | Полу-телесная анимация (не только лицо). CVPR 2025 |
| EchoMimic v3 | antgroup/echomimic_v3 | 0.9k | 2026-04-25 | Apache 2.0 | 1.3B параметров, унифицированный multi-modal. AAAI 2026 |
| LatentSync | bytedance/LatentSync | 5.6k | 2026-04-25 | Apache 2.0 | ByteDance. Stable Diffusion для lipsync. Коммерчески свободный |
| Real3DPortrait | yerfor/Real3DPortrait | 1.1k | 2026-04-22 | MIT | One-shot 3D talking portrait. ICLR 2024 Spotlight |
| JoyHallo | jdh-algo/JoyHallo | 0.5k | 2026-03-31 | MIT | Mandarin-оптимизированный Hallo |
| SkyReels-A1 | SkyworkAI/SkyReels-A1 | 0.6k | 2026-04-12 | Other | Expressive portrait animation (DiT) |
| HunyuanVideo-Avatar | Tencent-Hunyuan/HunyuanVideo-Avatar | 2.1k | 2026-04-24 | Other (Tencent) | Аватар-видео из видео-foundation модели |
| Linly-Talker | Kedreamix/Linly-Talker | 3.3k | 2026-04-24 | MIT | Готовая платформа: LLM + Whisper + SadTalker. Edu-сценарий |
| LiveTalking | lipku/LiveTalking | 7.5k | 2026-04-25 | Apache 2.0 | Real-time стриминг digital human (WebRTC) |
| AIGCPanel | modstart-lib/aigcpanel | 4.9k | 2026-04-25 | Apache 2.0 | Готовый "all-in-one" UI для локального деплоя digital human |
1.2 Закрытые / proprietary (НЕ open)
| Модель | Статус | Доступ |
|---|---|---|
| EMO (Alibaba) | НЕ выпущено в open. Только paper + демо | Через Alibaba Cloud Tongyi (китайский регион) |
| Hedra Character-1/2/3 | Closed-source | hedra.com API ($) |
| VASA-1 (Microsoft) | НЕ выпущено публично. Microsoft Research отказались релизить из-за этики | Нет |
| OmniHuman-1 (ByteDance) | НЕ open. Paper февраль 2025, демо есть, кода нет | Через Dreamina/Jimeng (ByteDance app) |
| Sora 2 talking | Closed (OpenAI) | API через OpenAI |
1.3 Качество и характеристики
| Модель | VRAM | Время на 1 сек видео (A100) | Качество губ | Качество эмоций |
|---|---|---|---|---|
| Wav2Lip | 4 GB | ~0.3-0.5 сек | ★★★★★ | ★★ (статичная голова) |
| SadTalker | 6-8 GB | ~3-5 сек | ★★★ | ★★★ (movement OK) |
| MuseTalk | 8 GB | ~0.03 сек (real-time 30 FPS) | ★★★★ | ★★★ |
| LivePortrait | 8 GB | ~0.5 сек | ★★★★ | ★★★★★ |
| Hallo / Hallo2 | 16-20 GB | ~10-15 сек | ★★★★★ | ★★★★ |
| LatentSync | 12 GB | ~5 сек | ★★★★★ | ★★★★ |
| EchoMimic v2/v3 | 16 GB | ~8-12 сек | ★★★★ | ★★★★★ (semi-body) |
1.4 Managed API доступ
| Модель | Replicate | fal.ai | Modal/RunPod (cog/template) |
|---|---|---|---|
| SadTalker | cjwbw/sadtalker ~$0.02-0.05/run |
fal-ai/sadtalker ($0.03) |
RunPod template |
| Wav2Lip | devxpy/cog-wav2lip ~$0.003/sec |
да | да |
| LivePortrait | fofr/cog-comfyui-liveportrait ~$0.01/sec |
fal-ai/live-portrait ($0.05/video) |
да |
| MuseTalk | community cog ~$0.01/sec | да | да |
| Hallo2 | fofr/hallo2 ~$0.05-0.15/run |
да | manishkj007/hallo2-worker |
| LatentSync | официальный cog | да | да |
| EchoMimic v2 | community cog | да | да |
2. TEXT-TO-SPEECH (РУССКИЙ / УКРАИНСКИЙ) для риэлтора
2.1 Open-source движки
| Движок | GitHub | Stars | License | Русский | Украинский | Voice cloning |
|---|---|---|---|---|---|---|
| GPT-SoVITS | RVC-Boss/GPT-SoVITS | 56.9k | MIT | ★★★★★ (топ для славянских) | ★★★★ (через few-shot) | 1 минута → клон. ЛУЧШИЙ для нашего кейса |
| F5-TTS | SWivid/F5-TTS | 14.4k | MIT | ★★★★ | ★★★ | Zero-shot, flow matching |
| XTTS-v2 (Coqui) | coqui-ai/TTS | 40k+ (archived) | MPL 2.0 | ★★★★ (16 яз. вкл. RU) | ★ (не нативный) | 6 сек → клон, 85-95% similarity |
| StyleTTS2 | yl4579/StyleTTS2 | 6.2k | MIT | через fine-tune | через fine-tune | Voice cloning, human-level |
| Tortoise-TTS | neonbjb/tortoise-tts | 14.8k | Apache 2.0 | ★★ (медленно, EN-биас) | ★ | Высокое качество, но 1 мин = 5+ мин генерации |
| Bark (Suno) | suno-ai/bark | 39k | MIT | ★★★ | ★★ | Без cloning, но multi-lingual |
| OpenVoice (MyShell) | myshell-ai/OpenVoice | 32k+ | MIT | ★★★ | ★★ | Voice cloning + tone color control |
| YourTTS | предшественник XTTS | - | MPL 2.0 | ★★★ | ★ | Старее XTTS-v2, хуже |
| ChatterboxTTS (Resemble) | resemble-ai/chatterbox | 4k+ | MIT | ★★★ | ★★ | Production-grade open-source. Apr 2025 |
| Silero TTS | snakers4/silero-models | 6k+ | AGPL+commercial | ★★★★ (нативный RU) | ★★★ (нативный UK) | Без cloning, но БЕСПЛАТНО, оффлайн, CPU |
2.2 Лучший выбор для русского/украинского риэлтора
Победитель: GPT-SoVITS — 56k звёзд, активно развивается, нативно тренируется на 1 минуте речи, многоязычный (русский = первоклассный), коммерческая лицензия MIT.
Второй вариант: Silero TTS — если voice cloning не нужен (готовые голоса). Работает на CPU, бесплатно, нативная поддержка русского и украинского.
Третий вариант: F5-TTS — самый быстрый рост (14k звёзд за полгода), хорошее качество zero-shot.
2.3 Managed API цены
| Сервис | Цена | RU | UK | Cloning |
|---|---|---|---|---|
| ElevenLabs | $0.18/1k chars (Pro) | ★★★★★ | ★★★★ | Да (instant + professional) |
| OpenAI TTS | $15/1M chars | ★★★ | ★★ | Нет |
| Replicate XTTS | ~$0.0003/char | ★★★★ | ★★ | Да |
| Replicate F5-TTS | ~$0.0002/char | ★★★★ | ★★★ | Да |
| fal.ai (XTTS/F5) | $0.05-0.10 per generation | ★★★★ | ★★ | Да |
| Yandex SpeechKit | от 0.16₽/100 chars | ★★★★★ (RU) | ★★★ | Да (yc Premium) |
| MS Azure Speech | $16/1M chars | ★★★★ | ★★★★ | Да (Custom Neural) |
| Google Cloud TTS | $4-16/1M chars | ★★★★ | ★★★ | Да (Studio voices) |
3. IMAGE-TO-VIDEO / CAMERA MOTION (для движения по фото квартиры)
3.1 Open-source модели
| Модель | GitHub | Stars | Last update | License | Best для |
|---|---|---|---|---|---|
| Open-Sora | hpcaitech/Open-Sora | 28.9k | 2026-04-25 | Apache 2.0 | T2V, длинные клипы |
| HunyuanVideo | Tencent-Hunyuan/HunyuanVideo | 12.0k | 2026-04-25 | Other (Tencent) | T2V SOTA, 13B параметров |
| HunyuanVideo-1.5 | Tencent-Hunyuan/HunyuanVideo-1.5 | 4.4k | 2026-04-24 | Other | Лёгкий, быстрее |
| HunyuanVideo-I2V | Tencent-Hunyuan/HunyuanVideo-I2V | 1.8k | 2026-04-20 | Other | Image-to-Video кастомизация |
| CogVideoX (THUDM) | zai-org/CogVideo | 12.7k | 2026-04-25 | Apache 2.0 | T2V + I2V, дружелюбный VRAM |
| LTX-Video | Lightricks/LTX-Video | 10.1k | 2026-04-25 | Apache 2.0 | Real-time T2V/I2V на consumer GPU |
| LTX-2 | Lightricks/LTX-2 | 6.1k | 2026-04-25 | Other | Audio-video совместное поколение |
| AnimateDiff | guoyww/AnimateDiff | 12.1k | 2026-04-25 | Apache 2.0 | I2V через SD checkpoints |
| Open-Sora-Plan (PKU) | PKU-YuanGroup/Open-Sora-Plan | 12.2k | 2026-04-25 | MIT | Open Sora reproduction |
| SkyReels-V2 | SkyworkAI/SkyReels-V2 | 6.8k | 2026-04-25 | Other | Infinite-length фильмы |
| SkyReels-V3 | SkyworkAI/SkyReels-V3 | 0.4k | 2026-04-25 | Other | Multimodal video gen |
| Stable Video Diffusion | Stability-AI/generative-models | 25k | (2024) | non-comm | I2V, NEDопустимо для коммерции без license |
| ToonCrafter | Doubiiu/ToonCrafter | 6.0k | 2026-04-23 | Apache 2.0 | Интерполяция между 2 кадрами (cartoon, но работает на real тоже) |
| StreamingT2V | Picsart-AI-Research/StreamingT2V | 1.6k | 2026-04-24 | research | Длинные видео, CVPR 2025 |
| TeaCache | ali-vilab/TeaCache | 1.3k | 2026-04-25 | Apache 2.0 | Ускорение видео-диффузии 2-5х |
3.2 Closed (закрытые)
- LumaLabs Dream Machine / Ray2 — closed, API $$$
- Runway Gen-3 / Gen-4 — closed, $0.05-0.10/сек видео
- Sora 2 / Sora Turbo — closed (OpenAI), API в pro plan
- Kling AI 2.x — closed (китайский), free tier есть
- Hailuo / MiniMax video — closed, дешёвые тарифы
- Pika 2.0 — closed
- Wan 2.1 / Wan 2.2 (Alibaba) — открыли веса, но репозиторий перемещался; искать
Wan-Video/Wan2.1иalibaba-wanна HF
3.3 Что лучше для real estate (квартирные фото → видео-обзор)
Для движения камеры по статичной квартире нужны:
- Image-to-Video с camera control — задать траекторию ("orbit", "pan-left", "zoom-in", "dolly-forward")
- Длительность 5-10 секунд на фото
- Реалистичность интерьера (не cartoon)
Топ-3 кандидата:
| Модель | Camera control | VRAM | Скорость | Replicate |
|---|---|---|---|---|
| CogVideoX-5B I2V | через prompt | 16-24 GB | 5-10 мин на 6 сек | cogvideox-5b-i2v ($0.10/run) |
| HunyuanVideo-I2V | через prompt | 60+ GB FP16 / 24 GB FP8 | 8-15 мин | community cog |
| LTX-Video | через prompt | 12-16 GB | 10-30 сек на 5 сек видео | lightricks/ltx-video ($0.02-0.05/run) |
| Stable Video Diffusion XT | motion bucket | 16 GB | ~3 мин | stability-ai/stable-video-diffusion |
| Wan 2.1 / 2.2 I2V | camera LoRA | 16-24 GB | 3-8 мин | wavespeedai/wan-2.1-i2v-720p |
Для нашего кейса (real estate): LTX-Video (скорость+цена) для MVP, Wan 2.2 I2V для качества (оба открытых).
3.4 Альтернатива: классический Ken Burns / 3D-параллакс
Для статичных квартир гораздо дешевле не использовать GenAI, а:
peterson-ken-burns-effect(Python/FFmpeg) — pan/zoom за копейки- 3D-Photo-Inpainting (Facebook Research) — стерео из 1 фото + параллакс камеры
- Gaussian Splatting из 5-10 фото квартиры → реальный 3D walkthrough
4. AI VIDEO PIPELINE / ORCHESTRATION
| Платформа | GitHub | Stars | License | Назначение |
|---|---|---|---|---|
| ComfyUI | Comfy-Org/ComfyUI | 110.0k | GPL-3.0 | Граф-нодовый workflow для всех моделей выше |
| ComfyUI-Manager | Comfy-Org/ComfyUI-Manager | 14.4k | GPL-3.0 | Управление пакетами |
| AIGCPanel | modstart-lib/aigcpanel | 4.9k | Apache 2.0 | One-click digital human stack |
| Fay | xszyou/Fay | 12.7k | GPL-3.0 | Digital human framework + LLM bridge |
| TTS-WebUI | rsxdalv/TTS-WebUI | 3.1k | MIT | Все TTS под одним UI |
| TTS-Audio-Suite | diodiogod/TTS-Audio-Suite | 0.9k | Other | ComfyUI multi-engine TTS |
| StabilityMatrix | LykosAI/StabilityMatrix | 8.0k | AGPL-3.0 | Установка SD/SDXL/Comfy в один клик |
ComfyUI workflows для real estate / talking avatar:
kijai/ComfyUI-LivePortraitKJ(2.2k) — продвинутый LivePortraitkijai/ComfyUI-CogVideoXWrapper(1.5k) — CogVideoXkijai/ComfyUI-HunyuanVideoWrapper(2.6k) — HunyuanVideoLightricks/ComfyUI-LTXVideo(3.5k) — LTXchaojie/ComfyUI-MuseTalk(0.3k) — MuseTalkShmuelRonen/ComfyUI-LatentSyncWrapper(0.9k) — LatentSyncsmthemex/ComfyUI_EchoMimic(0.7k) — EchoMimicsieve-community/sievesync(0.05k) — pipeline MuseTalk + LivePortrait + CodeFormer
5. PHP-FRIENDLY AI VIDEO API (что легко вызвать из PHP)
Все ниже — REST API. PHP 8.5 + curl + наш BaseApiClient (скилл api-integrator).
5.1 Managed GPU платформы
| Платформа | Модель оплаты | Сильные стороны | Слабые |
|---|---|---|---|
| Replicate | per-second ($0.000225/sec T4 → $0.001400/sec A100) | Огромный каталог. REST API из коробки. Webhooks | Не самый дешёвый. Cold start |
| fal.ai | per-call (часто $0.02-0.10) | Самый быстрый inference. Streaming. Готовые модели | Меньший каталог |
| Modal | per-second ($3.95/hr H100) + scale-to-zero | DX отличный. Можно деплоить свои cog | Дороже Runpod при высокой нагрузке |
| RunPod Serverless | per-second ($1.99/hr H100) | Дешевле всех. Есть templates | DX хуже Modal. Cold start длиннее |
| HuggingFace Inference Endpoints | $0.06-1.50/hr GPU | Прямой деплой из HF Hub | Дороже на больших объёмах |
| Banana | per-second | Быстрый деплой | Менее популярна |
| Together AI | per-token / per-second | Топ за low-latency text | Меньше видео-моделей |
5.2 Готовые avatar/video API (closed source)
| API | Цена | RU/UK | Real-time | Webhook |
|---|---|---|---|---|
| HeyGen | $24-89/мес + кредиты, ~$0.30-1.00/мин видео | ★★★★ | нет | да |
| D-ID | $5.9/мес базовый, API $0.02/сек | ★★★★ | да (через стрим API) | да |
| Synthesia | $22-67/мес | ★★★★ | нет | enterprise |
| DeepBrain AI (Korea) | $30/мес | ★★★ | да | да |
| Hedra | $9-35/мес, API per-credit | ★★★★ (Character-3) | нет | да |
| Tavus | $0.20/мин, real-time | ★★★ | да | да |
| Vidnoz | freemium 2 мин/день | ★★★ | нет | через AppyPie |
| Kling AI API | $0.05-0.20/сек | ★★★★ | нет | да |
| MiniMax / Hailuo | дёшево, $0.03-0.08/сек | ★★★★★ (китайский регион) | нет | да |
| Pika API | $0.05-0.15/сек | ★★★ | нет | да |
| Runway Gen-3 API | $0.05-0.10/сек | ★★★ | нет | да |
| Sora 2 API (OpenAI) | $0.10-0.50/сек (по тарифу) | ★★★ | нет | через polling |
| Elai.io | $23/мес | ★★★★ | нет | да |
| Vidu (Shengshu) | копейки, китайский | ★★★ | нет | да |
6. REAL ESTATE SPECIFIC
6.1 Open-source
- graphdeco-inria/gaussian-splatting (21.5k, ★★★★★) — оригинал 3DGS. Из 30-50 фото квартиры → интерактивный 3D-walkthrough в браузере (через
playcanvas/supersplat4.6k или Three.js) - nerfstudio-project/gsplat (4.9k) — CUDA rasterization
- dreamgaussian/dreamgaussian (4.3k) — генеративный 3D из 1 фото за минуты
- playcanvas/supersplat (4.6k, MIT) — браузерный редактор 3DGS
6.2 Closed/SaaS для real estate
- Polycam / Luma Genie — фото → 3D walkthrough
- Matterport — стандарт индустрии, $15-309/мес
- Reonomy / VirtualStagingAI / ApplyDesign — virtual staging $0.99-29/комната
- Image enhancement: REAL-ESRGAN (xinntao/Real-ESRGAN), GFPGAN, CodeFormer для улучшения квартирных фото перед видео-генерацией
6.3 Floor plan generators
shmuelzon/home-assistant-floor-plan(1.0k) — генератор floor plan для Home Assistantm-agour/Plannify— residential floor planz-aqib/Floor-Plan-Generator-Using-AI— CSP-based AI
(специально для real estate видео-обзоров готовых open-source платформ НЕ найдено)
7. ЧТО ПОЯВИЛОСЬ В 2025-2026 (важное)
- EchoMimic v3 (Ant Group, AAAI 2026) — 1.3B параметров, multi-modal multi-task
- HunyuanVideo-Avatar (Tencent) — авторские аватары на базе видео-foundation модели
- OmniHuman-1 (ByteDance, февраль 2025) — закрытый, но самый впечатляющий по демо. Доступен через Dreamina/Jimeng
- LatentSync (ByteDance) — стандарт lipsync 2025-2026 (заменяет Wav2Lip для коммерции)
- LTX-Video / LTX-2 (Lightricks) — real-time видео на consumer GPU. Лучшее соотношение цена/скорость
- HunyuanVideo 1.5 — лёгкий вариант (декабрь 2025)
- Wan 2.2 (Alibaba) — открытые веса видео-модели, конкурент Sora
- GPT-SoVITS v2 — нативно русский с few-shot
- F5-TTS — flow matching, быстро и качественно
- SkyReels-V2/V3 (Skywork) — infinite длина, multimodal
- Sora 2 (OpenAI) — closed, но API доступно
8. РЕКОМЕНДУЕМЫЙ ТЕХНИЧЕСКИЙ СТЕК
8.1 Лучшая комбинация для MVP (быстро, дёшево, хорошо)
Цель: запустить за 1-2 недели, тестировать гипотезу.
┌─────────────────────────────────────────────────────────┐
│ MVP STACK (через managed API, никакого self-hosting) │
├─────────────────────────────────────────────────────────┤
│ 1. Текст обзора (LLM) │
│ Claude API Platform (наш прокси): claude-haiku-4-5 │
│ ~$0.001-0.005 на скрипт обзора │
│ │
│ 2. TTS (озвучка риэлтора) │
│ Replicate XTTS-v2 или fal.ai F5-TTS │
│ ~$0.05-0.15 на 60 сек аудио │
│ (готовый голос риэлтора через voice cloning) │
│ │
│ 3. Talking head (фото риэлтора + аудио) │
│ Replicate SadTalker или fal.ai LivePortrait │
│ ~$0.03-0.10 на видео-сегмент 5-10 сек │
│ │
│ 4. Камера-движение по квартирным фото │
│ Replicate LTX-Video I2V │
│ ~$0.05-0.10 на 5 сек видео │
│ Альтернатива: Ken Burns FFmpeg ~$0 (просто pan/zoom) │
│ │
│ 5. Сборка видео │
│ FFmpeg на VPS 173.242.56.80 (бесплатно) │
│ Layout: talking head в углу + B-roll квартиры │
└─────────────────────────────────────────────────────────┘
Cost per 60-sec video (MVP):
- LLM скрипт: $0.005
- TTS: $0.10
- Talking head: 6 сегментов × $0.05 = $0.30
- Камера-движение: 6 фото × $0.05 = $0.30
- FFmpeg сборка: $0
- ИТОГО: ~$0.71 за 1 минутное видео
8.2 Production stack (качество + масштабируемость)
┌─────────────────────────────────────────────────────────┐
│ PRODUCTION STACK │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: Claude Sonnet 4.7 (через прокси) — лучше скрипт │
│ 2. TTS: ElevenLabs Pro (RU/UK топ + voice cloning) │
│ ИЛИ Yandex SpeechKit (RU нативный) │
│ 3. Talking head: HeyGen Avatar IV API ИЛИ Hedra API │
│ 4. Камера: Wan 2.2 I2V (Replicate) или Sora 2 API │
│ 5. Enhancement: Topaz Video AI / Real-ESRGAN на VPS │
│ 6. Очередь: MySQL + cron worker на VPS (паттерн │
│ pattern-frame queue, dead-letter) │
│ 7. Хранилище видео: CDN serflow.cdn.express │
│ 8. Мониторинг: observability + Mercure для real-time │
│ progress в SPA │
└─────────────────────────────────────────────────────────┘
Cost per 60-sec video (Production):
- LLM: $0.03
- ElevenLabs TTS: 1500 chars × $0.18/1k = $0.27
- HeyGen avatar 60 сек: $1.00-2.00
- Wan I2V (6 фото): 6 × $0.15 = $0.90
- ИТОГО: ~$2.20-3.20 за 1 минутное видео
8.3 Бюджетный вариант (китайские/корейские API)
┌─────────────────────────────────────────────────────────┐
│ BUDGET STACK (китайская экосистема) │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: DeepSeek V3 (~$0.27/1M tokens) │
│ 2. TTS: ByteDance Volcengine TTS / MiniMax T2A │
│ (~$0.03-0.10 на минуту) │
│ 3. Talking head: MiniMax Hailuo или Vidu API │
│ (~$0.10-0.30 на видео) │
│ 4. Камера: Kling AI API ($0.05/сек) или Hailuo ($0.03) │
│ 5. Voice cloning: GPT-SoVITS на RunPod Serverless │
│ ($0.0006/сек H100, ~$0.50/час) │
└─────────────────────────────────────────────────────────┘
Cost per 60-sec video (Budget):
- LLM: $0.005
- TTS: $0.05
- Talking head: $0.30
- Камера: 60 сек × $0.03 = $1.80
- ИТОГО: ~$2.15 (но в RU/UK хуже, нужны тесты)
8.4 Премиум стек
┌─────────────────────────────────────────────────────────┐
│ PREMIUM STACK (максимальное качество) │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: Claude Opus 4.7 + Extended Thinking │
│ 2. TTS: ElevenLabs Professional Voice Clone (PVC) │
│ ($1100 setup, потом $0.18/1k chars + 95% similarity) │
│ 3. Talking head: HeyGen Avatar IV (full body) │
│ ИЛИ Hedra Character-3 │
│ 4. Камера: Sora 2 Pro API + Runway Gen-4 (A/B) │
│ 5. Upscale: Topaz Video AI (4K) │
│ 6. Enhancement: GFPGAN + Real-ESRGAN │
└─────────────────────────────────────────────────────────┘
Cost per 60-sec video (Premium):
- LLM: $0.10
- ElevenLabs PVC: $0.27
- HeyGen Avatar IV: $3-5
- Sora 2 видео: 60 сек × $0.30 = $18
- Upscale Topaz: $0.50
- ИТОГО: ~$22-25 за 1 минутное видео
8.5 Self-hosted вариант (через GPU cloud, не наш VPS 8GB)
Наш VPS 173.242.56.80 (4 CPU, 8GB RAM, 0 GPU) НЕ потянет ML. Все модели требуют 16-80 GB VRAM.
Вариант: orchestration на VPS, inference на RunPod Serverless / Modal.
┌─────────────────────────────────────────────────────────┐
│ SELF-HOSTED НА RUNPOD SERVERLESS │
├─────────────────────────────────────────────────────────┤
│ Templates на RunPod (H100 spot $1.99/hr): │
│ - SadTalker / LivePortrait template │
│ - GPT-SoVITS template │
│ - LTX-Video template │
│ - ComfyUI с workflows │
│ │
│ Идея: PHP на VPS пушит job в Redis/MySQL, RunPod worker │
│ забирает, генерит, кладёт результат на CDN, шлёт │
│ webhook обратно на VPS, Mercure пушит progress в SPA. │
└─────────────────────────────────────────────────────────┘
Cost при self-hosted на RunPod (60-sec video, пока worker prewarmed):
- LTX-Video 6 сегментов: 6 × 30 сек × $1.99/3600 = $0.10
- GPT-SoVITS 60 сек: 30 сек GPU × $1.99/3600 = $0.017
- LivePortrait 60 сек: 6 × 5 сек × $1.99/3600 = $0.017
- ИТОГО: ~$0.13 (но без cold starts, queue, надёжности — это голая GPU цена)
Реалистично с overhead (cold starts + retry + storage): ~$0.50-1.00 за минуту видео
8.6 Итоговая таблица сравнения
| Вариант | Cost/min | Качество | Скорость | Сложность интеграции |
|---|---|---|---|---|
| MVP (Replicate/fal) | $0.71 | 7/10 | 2-5 мин | ★ простая |
| Budget (китайские) | $2.15 | 6/10 (в RU спорно) | 3-7 мин | ★★ средняя |
| Production | $2.20-3.20 | 8.5/10 | 3-5 мин | ★★★ высокая |
| Premium | $22-25 | 9.5/10 | 5-10 мин | ★★★★ |
| Self-hosted RunPod | $0.50-1.00 | 7/10 | 2-4 мин (warm) | ★★★★★ очень сложно |
9. КЛЮЧЕВЫЕ ССЫЛКИ И ИСТОЧНИКИ
Awesome lists
MrNeRF/awesome-3D-gaussian-splatting(8.5k) — 3DGSxlite-dev/Awesome-DiT-Inference(0.5k) — оптимизация diffusionhua1995116/awesome-ai-painting(11.7k) — общий AI art
Reddit / HN
- r/StableDiffusion — обсуждения lipsync моделей
- r/LocalLLaMA — TTS/voice cloning
- HackerNews "Show HN" по SadTalker/LivePortrait
Web research (апрель 2026)
- pixazo.ai/blog/best-open-source-lip-sync-models — топ-8 lipsync моделей
- lipsync.com/blog/open-source-lip-sync — Wav2Lip vs MuseTalk
- aifreeforever.com/blog/lip-sync-ai — 21 инструмент
- bentoml.com/blog/exploring-the-world-of-open-source-text-to-speech-models — TTS обзор
- huggingface.co/blog/norwooodsystems/multilingual-voice-cloning-with-xtts-v2 — XTTS multilingual
- designrevision.com/blog/heygen-alternatives — HeyGen альтернативы
10. РЕКОМЕНДАЦИЯ ДЛЯ present-room.ai-platform.space
Делать MVP на Replicate / fal.ai с первого дня:
- Скрипт обзора → Claude Haiku 4.5 (через наш прокси)
- Голос риэлтора → клонируем 1 раз через Replicate F5-TTS (или ElevenLabs если нужен топ для RU/UK)
- Видео риэлтора → Replicate SadTalker (быстро, $0.05/run) ИЛИ Hedra Character-3 API (топ качество, $0.20-0.50)
- Видео квартиры → Replicate LTX-Video I2V для движения камеры по фото ($0.05/run)
- Сборка → FFmpeg на VPS
Почему не self-hosted: нет GPU на VPS. Покупка/аренда GPU = $200+/мес фикс. Replicate платится только при генерации = пропорционально клиентам.
Когда переключаться на RunPod self-hosted: при объёме 500+ видео/день (тогда фикс GPU дешевле per-call API).
Архитектура PHP:
pattern-frame queueдля задач (MySQL job table + cron worker)pattern-frame mercure-realtimeдля прогресса в кабинетеBaseApiClient(скилл api-integrator) для каждого API провайдера- Dead-letter queue для retry (правило #30)
- CDN serflow.cdn.express для готовых видео
Sources (web research)
- 8 Best Open Source Lip-Sync Models in 2026
- 21 Best AI Tools for Lipsync in 2026
- 5 Best Open-Source Lip Sync Tools 2026
- Coqui TTS: Free Voice Cloning XTTS v2 2026
- Best Open-Source TTS in 2026
- The Best Open-Source Text-to-Speech Models in 2026
- XTTS v2 Multilingual Voice Cloning Guide
- 7 Best HeyGen Alternatives 2026
- 10 Best HeyGen Alternatives for AI Avatar Video 2026
- RunPod vs Modal vs Replicate Comparison 2026
- Top Serverless GPU Clouds 2026