Функция генерации изображений Chatgpt получает большое обновление: вот что нового

OpenAI представила значительное обновление возможностей Catgpt по генерации изображений, отметив первое значительное улучшение за год. Новая функция, называемая «изображениями в CATGPT», позволяет пользователям генерировать и изменять изображения непосредственно в чат-боте, используя модель GPT-4O компании.

Генерация нативного изображения в Chatgpt

GPT-4O, который давно подкрепляет чат-бот OpenAI, теперь выходит за рамки генерации текста, включающего изображения. Эта функция теперь доступна для подписчиков Chatgpt Plus, Pro, команды и бесплатных уровней, причем бесплатные пользователи имеют ограниченную ежедневную квоту. По словам представителя Openai Taya Christianson (через Verge), эти ограничения отражают ограничения Dall-E 3, хотя они могут измениться в зависимости от спроса. Сам Dall-E 3 остается доступным через пользовательский GPT.

В отличие от своего предшественника, GPT-4O «думает» дольше, прежде чем генерировать изображения, что приводит к повышению точности и детализации. Модель следует за авторегрессивным подходом, последовательно генерируя изображения слева направо и сверху вниз, а не использует метод на основе диффузии, используемую для таких моделей, как Dall-E 3. Этот сдвиг может способствовать его улучшенным возможностям рендеринга текста, области, в которой часто борются традиционные генераторы изображений ИИ.

Усовершенствованное редактирование изображений и точность

Способность GPT-4O модифицировать существующие изображения представляет собой еще один серьезный скачок вперед. Теперь пользователи могут изменять изображения, включая те, которые с участием людей — за счет деталей внедрения, таких как фон и элементы переднего плана. Это означает, что изображения могут быть уточнены в режиме реального времени с помощью разговорного интерфейса, что делает итерационные корректировки более интуитивными.

Кроме того, модель может похвастаться превосходными возможностями «привязки», обеспечивая ее правильные отношения между атрибутами и объектами в данной подсказке. Многие генераторы изображений ИИ борются с точным изображением сложных сцен, содержащих несколько элементов, обычно выходящих за рамки 5-8 объектов. Однако GPT-4O может обрабатывать между 15-20 объектами при сохранении точности.

«Эта модель — это шаг, превышающее предыдущие модели», — сказал Openai Research Gabriel Goh, когда выступая с Verge. Он подчеркнул, как система улучшает привязку объекта к атрибуту и рендеринг текста, что делает ее гораздо более надежным для создания структурированных изображений со встроенным текстом, такими как знаки или инфографика.

Обучение и этические соображения

Чтобы обеспечить эту расширенную возможность, OpenAI обучил GPT-4O, используя общедоступные данные, а также проприетарные наборы данных, полученные в рамках партнерских отношений с такими компаниями, как Shutterstock. Тем не менее, компания по -прежнему осторожна с тем, что раскрывает слишком много о его учебном процессе, отчасти из -за проблем интеллектуальной собственности.

OpenAI также предпринял шаги по решению вопросов об авторском праве, предоставив форму отказа для художников, которые хотят исключить свою работу из будущих наборов данных. Кроме того, компания уважает запросы, чтобы заблокировать своих ботов с помощью сбора в Интернете сбором данных, включая изображения, с конкретных веб-сайтов.

Несмотря на эти меры, изображения, сгенерированные GPT-4O, не будут иметь видимые водяные знаки, указывающие на создание ИИ. Тем не менее, OpenAI подтвердил, что все сгенерированные изображения будут включать метаданные C2PA, чтобы пометить их как сгенерированные AI, а компания имеет внутренние инструменты для отслеживания изображений, созданных его моделями.

Конкурентная ландшафт

Это обновление поступает на фоне растущей конкуренции в пространстве генерации изображений ИИ. Недавно Google ввел экспериментальный результат нативного изображения в Flash Gemini 2.0, но эта функция быстро вызвала критику из -за отсутствия ограждений, что позволило пользователям удалять водяные знаки и генерировать потенциально нарушающий контент. Напротив, Openai утверждает, что у него есть более строгие меры предосторожности, чтобы предотвратить прямое подражание работам живых художников и материала, защищенных авторским правом.

С этими достижениями, OpenAI позиционирует Chatgpt не только как разговорный ИИ, но и мощный мультимодальный инструмент, способный плавно интегрировать текст, изображения и будущие форматы медиа. По мере развития технологии возможность генерировать визуально когерентные, контекстные точные изображения в интерактивном интерфейсе чата могут переопределить то, как пользователи создают и взаимодействуют с контентом, созданным AI.