Исследователи из Пекинского университета, Kuaishou Technology и Пекинского университета почты и коммуникации разработали и открыли для свободного использования новую ИИ-модель под названием Pyramid Flow. Она специализируется на генерации видео.
Нейронная сеть способна создавать 10-секундные видеоролики с разрешением 768p и частотой кадров 24 FPS. Она поддерживает режимы преобразования текста в видео и изображений в видео. Создатели подчеркнули, что процесс обучения модели велся на открытых наборах данных и занял 20 тысяч часов работы графических процессоров. Для этих целей были использованы видеокарты Nvidia A100.
Исследования, проведенные разработчиками, демонстрируют, что Pyramid Flow значительно опережает существующие открытые модели для создания видео, такие как Kling и Gen-3 Alpha. Команда проекта также организовала сравнительные испытания, в которых участвовали свыше 20 человек. Графики демонстрируют, что участники чаще подчеркивают плавность видео, созданных с использованием Pyramid Flow.
Горячие темы