Alibaba запустила WAN 2.1, его последний набор моделей генерации видео на основе AI, что делает их открытым исходным кодом для академического и коммерческого использования. Новые модели, размещенные на обнимательном лицо, предлагают ряд возможностей, включая генерацию текста к Video (T2V) и генерацию изображения-Video (I2V), создавая почву для достижения в области создания контента, управляемого AI.
WAN 2.1 состоит из четырех моделей на основе параметров, предназначенных для различных уровней задач генерации видео:
• T2V-1,3B и T2V-14B (модели текста к Video)
• I2V-14B-720p и I2V-14B-480p (модели изображения к Video)
Самая маленькая модель Alibaba, T2V-1,3B, особенно примечательна, поскольку она может работать на графических процессорах потребительского уровня с всего лишь 8,19 ГБ VRAM. Компания утверждает, что NVIDIA RTX 4090 может генерировать пятисекунднее видео 480p за четыре минуты.
Модели ИИ используют архитектуру диффузионного трансформатора, улучшенную с помощью вариационных автоходоров (VAE) для оптимизации использования памяти и улучшения качества видео. Трехмерная архитектура причинного VAE, получившая название Wan-Vae, позволяет системе создавать постоянные видео с высоким разрешением (1080p), сохраняя при этом историческую информацию о кадре, обеспечивая лучшую последовательность сцены.
Alibaba говорит, что WAN 2.1 превосходит модель SORA Openai в нескольких ключевых областях:
• Лучшее качество генерации сцены
• Более высокая точность однообъекта
• Более точное пространственное позиционирование
WAN 2.1 выпускается по лицензии Apache 2.0, что делает его свободно доступным для исследовательских и академических целей. Тем не менее, коммерческое использование имеет ограничения, ограничивая его применение в определенных отраслях.
В то время как WAN 2.1 в настоящее время фокусируется на генерации текста в Video и изображения-видео, Alibaba намекает на то, что будущие версии могут расширить возможности, чтобы включить видео-генерацию видео-Audio и редактирование видео с AI.