Open-Source GitHub исследование для present-room.ai-platform.space

Целевой путь финального отчёта: /Users/tsemakhold/home/serverflow/web/present-room.ai-platform.space/www/research/02_opensource_github.md

Я нахожусь в plan mode, поэтому не могу записать в /research/ напрямую. Содержимое ниже — полный финальный отчёт. После выхода из plan mode (или с разрешения пользователя) переношу 1-в-1 в целевой файл.

Дата: 2026-04-25. Стек: PHP 8.5 + jQuery 4 + MySQL 8.4. Self-hosted на VPS 8GB не пойдёт (нужен GPU 16-80GB) — все ML вызывается через managed GPU API (Replicate / Modal / RunPod / fal.ai) либо коммерческие API.


1. AI TALKING AVATARS (фото + аудио → говорящее лицо)

1.1 Топ open-source модели (по актуальности на апрель 2026)

Модель GitHub Stars Last update License Что делает
SadTalker OpenTalker/SadTalker 13.7k 2026-04-25 (живой) Other (research+commercial OK) 1 фото → говорящая голова с движением головы. CVPR 2023, де-факто стандарт
Wav2Lip Rudrabha/Wav2Lip 13.0k 2026-04-25 non-comm research (для коммерции — Sync Labs) Lipsync на ГОТОВОЕ видео. Лучший лип-синк, но НЕ статичное фото
LivePortrait KlingAIResearch/LivePortrait 18.2k 2026-04-25 Other ByteDance. Driving-видео + фото → анимация. Реалистичная мимика и эмоции. Стандарт 2025-26
MuseTalk TMElyralab/MuseTalk 5.7k 2026-04-25 Other (Tencent) Real-time lipsync 30+ FPS. Latent space inpainting. Лучший для дубляжа существующих видео в realtime
AniPortrait Zejun-Yang/AniPortrait 5.0k 2026-04-24 Apache 2.0 Audio-driven фотореалистичная портретная анимация
EchoMimic v1 antgroup/echomimic 4.2k 2026-04-24 Apache 2.0 Ant Group (Alipay). Editable landmarks, AAAI 2025
EchoMimic v2 antgroup/echomimic_v2 4.5k 2026-04-25 Apache 2.0 Полу-телесная анимация (не только лицо). CVPR 2025
EchoMimic v3 antgroup/echomimic_v3 0.9k 2026-04-25 Apache 2.0 1.3B параметров, унифицированный multi-modal. AAAI 2026
LatentSync bytedance/LatentSync 5.6k 2026-04-25 Apache 2.0 ByteDance. Stable Diffusion для lipsync. Коммерчески свободный
Real3DPortrait yerfor/Real3DPortrait 1.1k 2026-04-22 MIT One-shot 3D talking portrait. ICLR 2024 Spotlight
JoyHallo jdh-algo/JoyHallo 0.5k 2026-03-31 MIT Mandarin-оптимизированный Hallo
SkyReels-A1 SkyworkAI/SkyReels-A1 0.6k 2026-04-12 Other Expressive portrait animation (DiT)
HunyuanVideo-Avatar Tencent-Hunyuan/HunyuanVideo-Avatar 2.1k 2026-04-24 Other (Tencent) Аватар-видео из видео-foundation модели
Linly-Talker Kedreamix/Linly-Talker 3.3k 2026-04-24 MIT Готовая платформа: LLM + Whisper + SadTalker. Edu-сценарий
LiveTalking lipku/LiveTalking 7.5k 2026-04-25 Apache 2.0 Real-time стриминг digital human (WebRTC)
AIGCPanel modstart-lib/aigcpanel 4.9k 2026-04-25 Apache 2.0 Готовый "all-in-one" UI для локального деплоя digital human

1.2 Закрытые / proprietary (НЕ open)

Модель Статус Доступ
EMO (Alibaba) НЕ выпущено в open. Только paper + демо Через Alibaba Cloud Tongyi (китайский регион)
Hedra Character-1/2/3 Closed-source hedra.com API ($)
VASA-1 (Microsoft) НЕ выпущено публично. Microsoft Research отказались релизить из-за этики Нет
OmniHuman-1 (ByteDance) НЕ open. Paper февраль 2025, демо есть, кода нет Через Dreamina/Jimeng (ByteDance app)
Sora 2 talking Closed (OpenAI) API через OpenAI

1.3 Качество и характеристики

Модель VRAM Время на 1 сек видео (A100) Качество губ Качество эмоций
Wav2Lip 4 GB ~0.3-0.5 сек ★★★★★ ★★ (статичная голова)
SadTalker 6-8 GB ~3-5 сек ★★★ ★★★ (movement OK)
MuseTalk 8 GB ~0.03 сек (real-time 30 FPS) ★★★★ ★★★
LivePortrait 8 GB ~0.5 сек ★★★★ ★★★★★
Hallo / Hallo2 16-20 GB ~10-15 сек ★★★★★ ★★★★
LatentSync 12 GB ~5 сек ★★★★★ ★★★★
EchoMimic v2/v3 16 GB ~8-12 сек ★★★★ ★★★★★ (semi-body)

1.4 Managed API доступ

Модель Replicate fal.ai Modal/RunPod (cog/template)
SadTalker cjwbw/sadtalker ~$0.02-0.05/run fal-ai/sadtalker ($0.03) RunPod template
Wav2Lip devxpy/cog-wav2lip ~$0.003/sec да да
LivePortrait fofr/cog-comfyui-liveportrait ~$0.01/sec fal-ai/live-portrait ($0.05/video) да
MuseTalk community cog ~$0.01/sec да да
Hallo2 fofr/hallo2 ~$0.05-0.15/run да manishkj007/hallo2-worker
LatentSync официальный cog да да
EchoMimic v2 community cog да да

2. TEXT-TO-SPEECH (РУССКИЙ / УКРАИНСКИЙ) для риэлтора

2.1 Open-source движки

Движок GitHub Stars License Русский Украинский Voice cloning
GPT-SoVITS RVC-Boss/GPT-SoVITS 56.9k MIT ★★★★★ (топ для славянских) ★★★★ (через few-shot) 1 минута → клон. ЛУЧШИЙ для нашего кейса
F5-TTS SWivid/F5-TTS 14.4k MIT ★★★★ ★★★ Zero-shot, flow matching
XTTS-v2 (Coqui) coqui-ai/TTS 40k+ (archived) MPL 2.0 ★★★★ (16 яз. вкл. RU) ★ (не нативный) 6 сек → клон, 85-95% similarity
StyleTTS2 yl4579/StyleTTS2 6.2k MIT через fine-tune через fine-tune Voice cloning, human-level
Tortoise-TTS neonbjb/tortoise-tts 14.8k Apache 2.0 ★★ (медленно, EN-биас) Высокое качество, но 1 мин = 5+ мин генерации
Bark (Suno) suno-ai/bark 39k MIT ★★★ ★★ Без cloning, но multi-lingual
OpenVoice (MyShell) myshell-ai/OpenVoice 32k+ MIT ★★★ ★★ Voice cloning + tone color control
YourTTS предшественник XTTS - MPL 2.0 ★★★ Старее XTTS-v2, хуже
ChatterboxTTS (Resemble) resemble-ai/chatterbox 4k+ MIT ★★★ ★★ Production-grade open-source. Apr 2025
Silero TTS snakers4/silero-models 6k+ AGPL+commercial ★★★★ (нативный RU) ★★★ (нативный UK) Без cloning, но БЕСПЛАТНО, оффлайн, CPU

2.2 Лучший выбор для русского/украинского риэлтора

Победитель: GPT-SoVITS — 56k звёзд, активно развивается, нативно тренируется на 1 минуте речи, многоязычный (русский = первоклассный), коммерческая лицензия MIT.

Второй вариант: Silero TTS — если voice cloning не нужен (готовые голоса). Работает на CPU, бесплатно, нативная поддержка русского и украинского.

Третий вариант: F5-TTS — самый быстрый рост (14k звёзд за полгода), хорошее качество zero-shot.

2.3 Managed API цены

Сервис Цена RU UK Cloning
ElevenLabs $0.18/1k chars (Pro) ★★★★★ ★★★★ Да (instant + professional)
OpenAI TTS $15/1M chars ★★★ ★★ Нет
Replicate XTTS ~$0.0003/char ★★★★ ★★ Да
Replicate F5-TTS ~$0.0002/char ★★★★ ★★★ Да
fal.ai (XTTS/F5) $0.05-0.10 per generation ★★★★ ★★ Да
Yandex SpeechKit от 0.16₽/100 chars ★★★★★ (RU) ★★★ Да (yc Premium)
MS Azure Speech $16/1M chars ★★★★ ★★★★ Да (Custom Neural)
Google Cloud TTS $4-16/1M chars ★★★★ ★★★ Да (Studio voices)

3. IMAGE-TO-VIDEO / CAMERA MOTION (для движения по фото квартиры)

3.1 Open-source модели

Модель GitHub Stars Last update License Best для
Open-Sora hpcaitech/Open-Sora 28.9k 2026-04-25 Apache 2.0 T2V, длинные клипы
HunyuanVideo Tencent-Hunyuan/HunyuanVideo 12.0k 2026-04-25 Other (Tencent) T2V SOTA, 13B параметров
HunyuanVideo-1.5 Tencent-Hunyuan/HunyuanVideo-1.5 4.4k 2026-04-24 Other Лёгкий, быстрее
HunyuanVideo-I2V Tencent-Hunyuan/HunyuanVideo-I2V 1.8k 2026-04-20 Other Image-to-Video кастомизация
CogVideoX (THUDM) zai-org/CogVideo 12.7k 2026-04-25 Apache 2.0 T2V + I2V, дружелюбный VRAM
LTX-Video Lightricks/LTX-Video 10.1k 2026-04-25 Apache 2.0 Real-time T2V/I2V на consumer GPU
LTX-2 Lightricks/LTX-2 6.1k 2026-04-25 Other Audio-video совместное поколение
AnimateDiff guoyww/AnimateDiff 12.1k 2026-04-25 Apache 2.0 I2V через SD checkpoints
Open-Sora-Plan (PKU) PKU-YuanGroup/Open-Sora-Plan 12.2k 2026-04-25 MIT Open Sora reproduction
SkyReels-V2 SkyworkAI/SkyReels-V2 6.8k 2026-04-25 Other Infinite-length фильмы
SkyReels-V3 SkyworkAI/SkyReels-V3 0.4k 2026-04-25 Other Multimodal video gen
Stable Video Diffusion Stability-AI/generative-models 25k (2024) non-comm I2V, NEDопустимо для коммерции без license
ToonCrafter Doubiiu/ToonCrafter 6.0k 2026-04-23 Apache 2.0 Интерполяция между 2 кадрами (cartoon, но работает на real тоже)
StreamingT2V Picsart-AI-Research/StreamingT2V 1.6k 2026-04-24 research Длинные видео, CVPR 2025
TeaCache ali-vilab/TeaCache 1.3k 2026-04-25 Apache 2.0 Ускорение видео-диффузии 2-5х

3.2 Closed (закрытые)

3.3 Что лучше для real estate (квартирные фото → видео-обзор)

Для движения камеры по статичной квартире нужны:

  1. Image-to-Video с camera control — задать траекторию ("orbit", "pan-left", "zoom-in", "dolly-forward")
  2. Длительность 5-10 секунд на фото
  3. Реалистичность интерьера (не cartoon)

Топ-3 кандидата:

Модель Camera control VRAM Скорость Replicate
CogVideoX-5B I2V через prompt 16-24 GB 5-10 мин на 6 сек cogvideox-5b-i2v ($0.10/run)
HunyuanVideo-I2V через prompt 60+ GB FP16 / 24 GB FP8 8-15 мин community cog
LTX-Video через prompt 12-16 GB 10-30 сек на 5 сек видео lightricks/ltx-video ($0.02-0.05/run)
Stable Video Diffusion XT motion bucket 16 GB ~3 мин stability-ai/stable-video-diffusion
Wan 2.1 / 2.2 I2V camera LoRA 16-24 GB 3-8 мин wavespeedai/wan-2.1-i2v-720p

Для нашего кейса (real estate): LTX-Video (скорость+цена) для MVP, Wan 2.2 I2V для качества (оба открытых).

3.4 Альтернатива: классический Ken Burns / 3D-параллакс

Для статичных квартир гораздо дешевле не использовать GenAI, а:


4. AI VIDEO PIPELINE / ORCHESTRATION

Платформа GitHub Stars License Назначение
ComfyUI Comfy-Org/ComfyUI 110.0k GPL-3.0 Граф-нодовый workflow для всех моделей выше
ComfyUI-Manager Comfy-Org/ComfyUI-Manager 14.4k GPL-3.0 Управление пакетами
AIGCPanel modstart-lib/aigcpanel 4.9k Apache 2.0 One-click digital human stack
Fay xszyou/Fay 12.7k GPL-3.0 Digital human framework + LLM bridge
TTS-WebUI rsxdalv/TTS-WebUI 3.1k MIT Все TTS под одним UI
TTS-Audio-Suite diodiogod/TTS-Audio-Suite 0.9k Other ComfyUI multi-engine TTS
StabilityMatrix LykosAI/StabilityMatrix 8.0k AGPL-3.0 Установка SD/SDXL/Comfy в один клик

ComfyUI workflows для real estate / talking avatar:


5. PHP-FRIENDLY AI VIDEO API (что легко вызвать из PHP)

Все ниже — REST API. PHP 8.5 + curl + наш BaseApiClient (скилл api-integrator).

5.1 Managed GPU платформы

Платформа Модель оплаты Сильные стороны Слабые
Replicate per-second ($0.000225/sec T4 → $0.001400/sec A100) Огромный каталог. REST API из коробки. Webhooks Не самый дешёвый. Cold start
fal.ai per-call (часто $0.02-0.10) Самый быстрый inference. Streaming. Готовые модели Меньший каталог
Modal per-second ($3.95/hr H100) + scale-to-zero DX отличный. Можно деплоить свои cog Дороже Runpod при высокой нагрузке
RunPod Serverless per-second ($1.99/hr H100) Дешевле всех. Есть templates DX хуже Modal. Cold start длиннее
HuggingFace Inference Endpoints $0.06-1.50/hr GPU Прямой деплой из HF Hub Дороже на больших объёмах
Banana per-second Быстрый деплой Менее популярна
Together AI per-token / per-second Топ за low-latency text Меньше видео-моделей

5.2 Готовые avatar/video API (closed source)

API Цена RU/UK Real-time Webhook
HeyGen $24-89/мес + кредиты, ~$0.30-1.00/мин видео ★★★★ нет да
D-ID $5.9/мес базовый, API $0.02/сек ★★★★ да (через стрим API) да
Synthesia $22-67/мес ★★★★ нет enterprise
DeepBrain AI (Korea) $30/мес ★★★ да да
Hedra $9-35/мес, API per-credit ★★★★ (Character-3) нет да
Tavus $0.20/мин, real-time ★★★ да да
Vidnoz freemium 2 мин/день ★★★ нет через AppyPie
Kling AI API $0.05-0.20/сек ★★★★ нет да
MiniMax / Hailuo дёшево, $0.03-0.08/сек ★★★★★ (китайский регион) нет да
Pika API $0.05-0.15/сек ★★★ нет да
Runway Gen-3 API $0.05-0.10/сек ★★★ нет да
Sora 2 API (OpenAI) $0.10-0.50/сек (по тарифу) ★★★ нет через polling
Elai.io $23/мес ★★★★ нет да
Vidu (Shengshu) копейки, китайский ★★★ нет да

6. REAL ESTATE SPECIFIC

6.1 Open-source

6.2 Closed/SaaS для real estate

6.3 Floor plan generators

(специально для real estate видео-обзоров готовых open-source платформ НЕ найдено)


7. ЧТО ПОЯВИЛОСЬ В 2025-2026 (важное)

  1. EchoMimic v3 (Ant Group, AAAI 2026) — 1.3B параметров, multi-modal multi-task
  2. HunyuanVideo-Avatar (Tencent) — авторские аватары на базе видео-foundation модели
  3. OmniHuman-1 (ByteDance, февраль 2025) — закрытый, но самый впечатляющий по демо. Доступен через Dreamina/Jimeng
  4. LatentSync (ByteDance) — стандарт lipsync 2025-2026 (заменяет Wav2Lip для коммерции)
  5. LTX-Video / LTX-2 (Lightricks) — real-time видео на consumer GPU. Лучшее соотношение цена/скорость
  6. HunyuanVideo 1.5 — лёгкий вариант (декабрь 2025)
  7. Wan 2.2 (Alibaba) — открытые веса видео-модели, конкурент Sora
  8. GPT-SoVITS v2 — нативно русский с few-shot
  9. F5-TTS — flow matching, быстро и качественно
  10. SkyReels-V2/V3 (Skywork) — infinite длина, multimodal
  11. Sora 2 (OpenAI) — closed, но API доступно

8. РЕКОМЕНДУЕМЫЙ ТЕХНИЧЕСКИЙ СТЕК

8.1 Лучшая комбинация для MVP (быстро, дёшево, хорошо)

Цель: запустить за 1-2 недели, тестировать гипотезу.

┌─────────────────────────────────────────────────────────┐
│ MVP STACK (через managed API, никакого self-hosting)    │
├─────────────────────────────────────────────────────────┤
│ 1. Текст обзора (LLM)                                   │
│    Claude API Platform (наш прокси): claude-haiku-4-5  │
│    ~$0.001-0.005 на скрипт обзора                       │
│                                                         │
│ 2. TTS (озвучка риэлтора)                               │
│    Replicate XTTS-v2 или fal.ai F5-TTS                  │
│    ~$0.05-0.15 на 60 сек аудио                          │
│    (готовый голос риэлтора через voice cloning)         │
│                                                         │
│ 3. Talking head (фото риэлтора + аудио)                 │
│    Replicate SadTalker или fal.ai LivePortrait          │
│    ~$0.03-0.10 на видео-сегмент 5-10 сек                │
│                                                         │
│ 4. Камера-движение по квартирным фото                   │
│    Replicate LTX-Video I2V                              │
│    ~$0.05-0.10 на 5 сек видео                           │
│    Альтернатива: Ken Burns FFmpeg ~$0 (просто pan/zoom) │
│                                                         │
│ 5. Сборка видео                                         │
│    FFmpeg на VPS 173.242.56.80 (бесплатно)              │
│    Layout: talking head в углу + B-roll квартиры        │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (MVP):

8.2 Production stack (качество + масштабируемость)

┌─────────────────────────────────────────────────────────┐
│ PRODUCTION STACK                                        │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: Claude Sonnet 4.7 (через прокси) — лучше скрипт │
│ 2. TTS: ElevenLabs Pro (RU/UK топ + voice cloning)      │
│    ИЛИ Yandex SpeechKit (RU нативный)                   │
│ 3. Talking head: HeyGen Avatar IV API ИЛИ Hedra API     │
│ 4. Камера: Wan 2.2 I2V (Replicate) или Sora 2 API       │
│ 5. Enhancement: Topaz Video AI / Real-ESRGAN на VPS     │
│ 6. Очередь: MySQL + cron worker на VPS (паттерн         │
│    pattern-frame queue, dead-letter)                    │
│ 7. Хранилище видео: CDN serflow.cdn.express             │
│ 8. Мониторинг: observability + Mercure для real-time    │
│    progress в SPA                                       │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (Production):

8.3 Бюджетный вариант (китайские/корейские API)

┌─────────────────────────────────────────────────────────┐
│ BUDGET STACK (китайская экосистема)                     │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: DeepSeek V3 (~$0.27/1M tokens)                  │
│ 2. TTS: ByteDance Volcengine TTS / MiniMax T2A          │
│    (~$0.03-0.10 на минуту)                              │
│ 3. Talking head: MiniMax Hailuo или Vidu API            │
│    (~$0.10-0.30 на видео)                               │
│ 4. Камера: Kling AI API ($0.05/сек) или Hailuo ($0.03) │
│ 5. Voice cloning: GPT-SoVITS на RunPod Serverless       │
│    ($0.0006/сек H100, ~$0.50/час)                       │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (Budget):

8.4 Премиум стек

┌─────────────────────────────────────────────────────────┐
│ PREMIUM STACK (максимальное качество)                   │
├─────────────────────────────────────────────────────────┤
│ 1. LLM: Claude Opus 4.7 + Extended Thinking             │
│ 2. TTS: ElevenLabs Professional Voice Clone (PVC)       │
│    ($1100 setup, потом $0.18/1k chars + 95% similarity) │
│ 3. Talking head: HeyGen Avatar IV (full body)           │
│    ИЛИ Hedra Character-3                                │
│ 4. Камера: Sora 2 Pro API + Runway Gen-4 (A/B)          │
│ 5. Upscale: Topaz Video AI (4K)                         │
│ 6. Enhancement: GFPGAN + Real-ESRGAN                    │
└─────────────────────────────────────────────────────────┘

Cost per 60-sec video (Premium):

8.5 Self-hosted вариант (через GPU cloud, не наш VPS 8GB)

Наш VPS 173.242.56.80 (4 CPU, 8GB RAM, 0 GPU) НЕ потянет ML. Все модели требуют 16-80 GB VRAM.

Вариант: orchestration на VPS, inference на RunPod Serverless / Modal.

┌─────────────────────────────────────────────────────────┐
│ SELF-HOSTED НА RUNPOD SERVERLESS                        │
├─────────────────────────────────────────────────────────┤
│ Templates на RunPod (H100 spot $1.99/hr):               │
│  - SadTalker / LivePortrait template                    │
│  - GPT-SoVITS template                                  │
│  - LTX-Video template                                   │
│  - ComfyUI с workflows                                  │
│                                                         │
│ Идея: PHP на VPS пушит job в Redis/MySQL, RunPod worker │
│ забирает, генерит, кладёт результат на CDN, шлёт        │
│ webhook обратно на VPS, Mercure пушит progress в SPA.  │
└─────────────────────────────────────────────────────────┘

Cost при self-hosted на RunPod (60-sec video, пока worker prewarmed):

Реалистично с overhead (cold starts + retry + storage): ~$0.50-1.00 за минуту видео

8.6 Итоговая таблица сравнения

Вариант Cost/min Качество Скорость Сложность интеграции
MVP (Replicate/fal) $0.71 7/10 2-5 мин ★ простая
Budget (китайские) $2.15 6/10 (в RU спорно) 3-7 мин ★★ средняя
Production $2.20-3.20 8.5/10 3-5 мин ★★★ высокая
Premium $22-25 9.5/10 5-10 мин ★★★★
Self-hosted RunPod $0.50-1.00 7/10 2-4 мин (warm) ★★★★★ очень сложно

9. КЛЮЧЕВЫЕ ССЫЛКИ И ИСТОЧНИКИ

Awesome lists

Reddit / HN

Web research (апрель 2026)


10. РЕКОМЕНДАЦИЯ ДЛЯ present-room.ai-platform.space

Делать MVP на Replicate / fal.ai с первого дня:

  1. Скрипт обзора → Claude Haiku 4.5 (через наш прокси)
  2. Голос риэлтора → клонируем 1 раз через Replicate F5-TTS (или ElevenLabs если нужен топ для RU/UK)
  3. Видео риэлтора → Replicate SadTalker (быстро, $0.05/run) ИЛИ Hedra Character-3 API (топ качество, $0.20-0.50)
  4. Видео квартиры → Replicate LTX-Video I2V для движения камеры по фото ($0.05/run)
  5. Сборка → FFmpeg на VPS

Почему не self-hosted: нет GPU на VPS. Покупка/аренда GPU = $200+/мес фикс. Replicate платится только при генерации = пропорционально клиентам.

Когда переключаться на RunPod self-hosted: при объёме 500+ видео/день (тогда фикс GPU дешевле per-call API).

Архитектура PHP:


Sources (web research)