Исследователи Apple представили модель искусственного интеллекта, позволяющую пользователям вносить желаемые изменения в фотографию простым языком, устраняя необходимость в традиционном программном обеспечении для редактирования фотографий. Инновационная модель, названная MGIE (MLLM-Guided Image Editing), является результатом сотрудничества Apple и Калифорнийского университета в Санта-Барбаре.
MGIE, способный выполнять различные задачи редактирования, включая обрезку, изменение размера, переворачивание и применение фильтров, исключительно с помощью текстовых подсказок, представляет собой значительный прогресс в технологии редактирования изображений. Это нововведение может обрабатывать как простые, так и сложные запросы на редактирование, например изменение определенных объектов на фотографии или повышение уровня яркости.
MGIE использует возможности мультимодальных языковых моделей, сначала расшифровывая подсказки пользователя, а затем генерируя соответствующие правки. Например, запрос на «более синее небо» означает регулировку яркости части изображения, связанной с небом. Такой подход обеспечивает точную интерпретацию и выполнение инструкций по редактированию.
Например, запрос «сделать ее более полезной» при редактировании изображения пиццы пепперони приводит к добавлению овощной начинки. Аналогично, указание модели «добавлять больше контраста, чтобы имитировать больше света» увеличивает яркость темного изображения, такого как тигры в Сахаре.
В заявлении, сопровождающем релиз, исследователи подчеркнули способность модели определять явные визуальные намерения, что приводит к значительному улучшению изображения. Они провели обширные исследования, подтверждающие эффективность MGIE в различных сценариях редактирования, подчеркнув его улучшенную производительность при сохранении конкурентоспособности. Более того, они предполагают, что структура, основанная на MLLM, будет способствовать будущим достижениям в исследованиях видения и языка.
Apple сделала MGIE доступным для загрузки через GitHub, а веб-демоверсия также доступна на Hugging Face Spaces. Однако компания не раскрыла свои планы относительно модели, выходящие за рамки исследовательских целей.
В то время как некоторые платформы генерации изображений, такие как DALL-E 3 от OpenAI, предлагают аналогичные возможности, а модель Adobe Firefly AI обеспечивает генеративное заполнение своего программного обеспечения Photoshop, вторжение Apple в пространство генеративного ИИ означает ее стремление включить расширенные функции ИИ в свои продукты. Генеральный директор Тим Кук ранее заявлял о намерении компании расширить функциональные возможности искусственного интеллекта на своих устройствах. Недавние усилия, включая выпуск в декабре платформы машинного обучения с открытым исходным кодом MLX, направлены на облегчение обучения моделей искусственного интеллекта на чипах Apple Silicon.
Алексей Петров – увлеченный пионер и основатель Richwenews. Обладая острым экономическим умом и глубоким пониманием мировых рынков, Алексей начинал как финансовый аналитик, прежде чем превратить свою страсть в создание инновационного медиа. Его преданность исследованию истины и предоставлению честной аналитики привели к формированию команды одаренных журналистов. Петров известен тем, что стоит за журналистской этикой и образованием аудитории, чтобы каждый гражданин мог принимать обоснованные экономические решения.