Google запускает видеомодель Veo gen AI; бросить вызов Соре из OpenAI

Долгожданная генеративная видеомодель Google, Veo, теперь доступна для бизнеса, что знаменует собой значительный шаг вперед в создании контента на основе искусственного интеллекта. Запущенный в рамках частной предварительной версии на платформе Google Vertex AI, Veo способен создавать «высококачественные» видеоролики 1080p в различных кинематографических и визуальных стилях на основе текстовых или графических подсказок.

Представленный в мае, всего через три месяца после того, как OpenAI представила свой конкурирующий продукт Sora, Veo теперь обогнал своего конкурента, выйдя на рынок первым.

Отличительной особенностью Veo является его способность поддерживать согласованность в сложных деталях, таких как узоры, освещение и расположение объектов в видеопоследовательностях, созданных искусственным интеллектом. Яркий пример, предоставленный Google, демонстрирует, как собака плавно движется по сцене, сохраняя при этом одинаковый рисунок шерсти и ошейник.

Google не указал ограничения на длину клипов в своем частном предварительном просмотре, но более ранние демонстрации предполагали возможность создания видеороликов продолжительностью «более минуты».

В объявлении также подтверждается доступность последней версии Google Imagen 3, генератора текста в изображения, который будет доступен всем клиентам Google Cloud через Vertex, начиная со следующей недели. Imagen 3 теперь предлагает расширенные функции, включая оперативное редактирование фотографий и возможность интегрировать логотипы брендов, стили или отдельные функции продукта в созданные изображения.

Несмотря на новаторские возможности Veo, он не лишен недостатков. В объявлении Google отмечаются случайные аномалии в рендеринге видео, такие как несоответствие освещения. Например, демо-версия сцены концерта показала, как свет проходит сквозь руку персонажа, указывая области, где модель ИИ нуждается в доработке.

Чтобы решить этические проблемы, Veo и Imagen 3 оснащены встроенными средствами защиты, предотвращающими создание вредного контента или контента, защищенного авторским правом. Кроме того, во все выходные данные встроена технология SynthID компании DeepMind — цифровой водяной знак, призванный уменьшить количество дезинформации и неправильной атрибуции контента. Это согласуется с аналогичными усилиями конкурентов, таких как Adobe, которая использует свою систему Content Credentials в контенте, генерируемом искусственным интеллектом.

Гонка с OpenAI

В то время как запуск Veo свидетельствует об агрессивном продвижении Google в области генеративного искусственного интеллекта, OpenAI отстает в выпуске обещанной видеомодели Sora, выпуск которой запланирован на конец 2024 года. Успех Google имеет решающее значение, поскольку компании все чаще используют контент, основанный на искусственном интеллекте. По данным компании, 86% организаций, использующих генеративный искусственный интеллект, сообщили о росте доходов, что еще раз подчеркивает экономические стимулы для внедрения этой технологии.

Контент, созданный искусственным интеллектом, уже проник в рекламу, как видно из недавней праздничной кампании Coca-Cola, что сигнализирует об изменении подхода брендов к видеомаркетингу.