Alibaba представляет WAN 2.1 Models Video Generation Models, чтобы превзойти Sora Open

Alibaba запустила WAN 2.1, его последний набор моделей генерации видео на основе AI, что делает их открытым исходным кодом для академического и коммерческого использования. Новые модели, размещенные на обнимательном лицо, предлагают ряд возможностей, включая генерацию текста к Video (T2V) и генерацию изображения-Video (I2V), создавая почву для достижения в области создания контента, управляемого AI.

WAN 2.1 состоит из четырех моделей на основе параметров, предназначенных для различных уровней задач генерации видео:

• T2V-1,3B и T2V-14B (модели текста к Video)
• I2V-14B-720p и I2V-14B-480p (модели изображения к Video)

Самая маленькая модель Alibaba, T2V-1,3B, особенно примечательна, поскольку она может работать на графических процессорах потребительского уровня с всего лишь 8,19 ГБ VRAM. Компания утверждает, что NVIDIA RTX 4090 может генерировать пятисекунднее видео 480p за четыре минуты.

Модели ИИ используют архитектуру диффузионного трансформатора, улучшенную с помощью вариационных автоходоров (VAE) для оптимизации использования памяти и улучшения качества видео. Трехмерная архитектура причинного VAE, получившая название Wan-Vae, позволяет системе создавать постоянные видео с высоким разрешением (1080p), сохраняя при этом историческую информацию о кадре, обеспечивая лучшую последовательность сцены.

Alibaba говорит, что WAN 2.1 превосходит модель SORA Openai в нескольких ключевых областях:

• Лучшее качество генерации сцены
• Более высокая точность однообъекта
• Более точное пространственное позиционирование

WAN 2.1 выпускается по лицензии Apache 2.0, что делает его свободно доступным для исследовательских и академических целей. Тем не менее, коммерческое использование имеет ограничения, ограничивая его применение в определенных отраслях.

В то время как WAN 2.1 в настоящее время фокусируется на генерации текста в Video и изображения-видео, Alibaba намекает на то, что будущие версии могут расширить возможности, чтобы включить видео-генерацию видео-Audio и редактирование видео с AI.