Apple представляет инструмент изображений с искусственным интеллектом, который позволяет вносить изменения, просто описывая их

Исследователи Apple представили модель искусственного интеллекта, позволяющую пользователям вносить желаемые изменения в фотографию простым языком, устраняя необходимость в традиционном программном обеспечении для редактирования фотографий. Инновационная модель, названная MGIE (MLLM-Guided Image Editing), является результатом сотрудничества Apple и Калифорнийского университета в Санта-Барбаре.

MGIE, способный выполнять различные задачи редактирования, включая обрезку, изменение размера, переворачивание и применение фильтров, исключительно с помощью текстовых подсказок, представляет собой значительный прогресс в технологии редактирования изображений. Это нововведение может обрабатывать как простые, так и сложные запросы на редактирование, например изменение определенных объектов на фотографии или повышение уровня яркости.

MGIE использует возможности мультимодальных языковых моделей, сначала расшифровывая подсказки пользователя, а затем генерируя соответствующие правки. Например, запрос на «более синее небо» означает регулировку яркости части изображения, связанной с небом. Такой подход обеспечивает точную интерпретацию и выполнение инструкций по редактированию.

Например, запрос «сделать ее более полезной» при редактировании изображения пиццы пепперони приводит к добавлению овощной начинки. Аналогично, указание модели «добавлять больше контраста, чтобы имитировать больше света» увеличивает яркость темного изображения, такого как тигры в Сахаре.

В заявлении, сопровождающем релиз, исследователи подчеркнули способность модели определять явные визуальные намерения, что приводит к значительному улучшению изображения. Они провели обширные исследования, подтверждающие эффективность MGIE в различных сценариях редактирования, подчеркнув его улучшенную производительность при сохранении конкурентоспособности. Более того, они предполагают, что структура, основанная на MLLM, будет способствовать будущим достижениям в исследованиях видения и языка.

Apple сделала MGIE доступным для загрузки через GitHub, а веб-демоверсия также доступна на Hugging Face Spaces. Однако компания не раскрыла свои планы относительно модели, выходящие за рамки исследовательских целей.

В то время как некоторые платформы генерации изображений, такие как DALL-E 3 от OpenAI, предлагают аналогичные возможности, а модель Adobe Firefly AI обеспечивает генеративное заполнение своего программного обеспечения Photoshop, вторжение Apple в пространство генеративного ИИ означает ее стремление включить расширенные функции ИИ в свои продукты. Генеральный директор Тим Кук ранее заявлял о намерении компании расширить функциональные возможности искусственного интеллекта на своих устройствах. Недавние усилия, включая выпуск в декабре платформы машинного обучения с открытым исходным кодом MLX, направлены на облегчение обучения моделей искусственного интеллекта на чипах Apple Silicon.