Google объявил о развертывании нативного генерации изображений в Flash Gemini 2.0, что делает его доступным для разработчиков через Google AI Studio и API Gemini. Экспериментальная функция отмечает первый раз, когда крупная американская технологическая компания имеет интегрированную генерацию текста и изображений в той же модели искусственного интеллекта.
В отличие от традиционных настройки генерации изображений ИИ, которые полагаются на отдельные диффузионные модели, связанные с LLMS, Flash Gemini 2.0 генерирует изображения, назначенные в той же модели, которая обрабатывает текстовые подсказки. Ожидается, что этот подход повысит точность, последовательность и общие творческие возможности.
Впервые представленные в декабре 2024 года, Flash Gemini 2.0 сочетает в себе мультимодальный ввод, усовершенствованные рассуждения и понимание естественного языка для создания изображений непосредственно наряду с текстом. Недавно доступная экспериментальная версия улучшает то, как разработчики могут создавать и усовершенствовать визуальный контент, предлагая несколько выдающихся функций:
- История и генерация иллюстраций — разработчики могут генерировать иллюстрированные истории с последовательными персонажами и настройками. Модель отвечает на отзывы пользователей, позволяя наносить настройки истории или стиля искусства.
- Редактирование разговорного изображений-Flash Gemini 2.0 позволяет редактировать многократное редактирование, позволяя пользователям усовершенствовать изображения с помощью подсказок естественного языка. Эта функция облегчает корректировку деталей или изучение различных творческих направлений.
- Всемирные поколения, основанные на знаниях-возможности рассуждения модели позволяют создавать контекстуально точные изображения на основе реальных знаний. Например, он может точно проиллюстрировать рецепт с визуальными эффектами, которые отражают реальные ингредиенты и методы приготовления.
- Улучшенный текстовый рендеринг — Gemini 2.0 Flash превосходит многие ведущие модели в рендеринге текста в изображениях. Он производит четкий, правильно написанный текст, что делает его особенно полезным для рекламы, сообщений в социальных сетях и приглашений.
Пользователи уже тестировали новые модели, и они получают восторженные отзывы из -за всего, что он может сделать. Вот несколько примеров, поделившихся пользователями на X (ранее Twitter):
Один пользователь попросил Gemini 2.0 Flash, чтобы модель носила другой набор одежды, предоставляя изображение куртки, и похоже, что Gemini проделал отличную работу!
Другой пользователь попробовал сценарий, в котором он загрузил два отдельных изображения человека и духов, и попросил Близнецов заставить человека держать бутылку, и, как и ожидалось, Близнецы блестяще выполнили.
Некоторые пользователи уже назвали его конец приложений и платформ, редактирующих изображения, такие как Photoshop и Canva, из-за того, насколько хорошими были результаты Gemini. Пользователи успешно пытались изменить цвета своей одежды с Близнецами. Вот пример.
В другом причудливом случае использования пользователь, который опоздал на работу, попросил Близнецов превратить свою селфи в их фотографию в ожидании поезда метро. Пользователь выписал очень подробную подсказку, и Близнецы выполнили, хотя и не совсем.
Пользователи X Eagle-Eled x заметили, что человек, стоящий за пользователем, выглядит как вымышленный персонаж, кроме того, большой палец пользователя также уникальная форма, раздавая искусственную природу изображения.
Одним из интересных вариантов использования, который люди узнали для новой модели Близнецов, является удаление водяных знаков из изображений. Пользователи использовали Gemini для удаления Istock или Getty WaterMarks из изображений, а экспериментальная модель делает это отлично.
Обычно, чтобы получить изображения без водяных знаков, пользователи заставляют заплатить премиальную цену, либо единовременную стоимость, либо подписку на услугу, однако, похоже, что вспышка Gemini 2.0 невероятно привлечена к удалению этих водяных знаков бесплатно.