Что такое новый GPT-4o от OpenAI и почему это может быть самое интересное обновление?

OpenAI только что выпустила GPT-4o, свою самую совершенную модель искусственного интеллекта, созданную для того, чтобы ваши цифровые взаимодействия были почти человеческими. Во время анонса команда OpenAI провела живую демонстрацию нового GPT. Судя по этому взаимодействию, можно с уверенностью сказать, что новый голосовой режим после обновления станет экспоненциально лучше, благодаря чему чат-бот будет звучать почти как человек. Команда постоянно прерывала ChatGPT, пока тот пытался ответить, и соответствующим образом изменяла свой ответ.

Итак, чтобы понять, что происходит под капотом, давайте углубимся в детали этого нового обновления и выясним, почему оно может стать самым интригующим и влиятельным обновлением OpenAI.

Быстрее и плавнее
Одной из выдающихся особенностей GPT-4o является его скорость. Он не только соответствует мастерству своего предшественника GPT-4 Turbo в решении задач по написанию текста и кодированию на английском языке, но и значительно улучшает обработку неанглийских языков. Это означает более плавную работу для глобальной базы пользователей.

Смешение изображения, звука и текста
GPT-4o — это не только текст. Он также объединяет аудио и визуальные входы и выходы. Представьте себе, что вы задаете компьютеру вопрос вслух, и он распознает не только ваши слова, но и тон и контекст, или показываете ему картинку и получаете объяснение за считанные секунды. GPT-4o может отвечать на устные запросы всего за 232 миллисекунды, что сравнимо с ответом человека в разговоре.

Более плавная обработка
Более ранние версии голосового режима в ChatGPT включали несколько неуклюжий процесс, в котором разные модели выполняли разные задачи: одна модель транскрибировала речь в текст, другая обрабатывала текст, а третья превращала текст обратно в речь. GPT-4o упрощает все это за счет единой модели, обрабатывающей текст, изображение и звук от начала до конца. Это не только сокращает время ответа, но и повышает качество взаимодействия. Теперь модель может обнаруживать такие нюансы, как тон, распознавать несколько говорящих и даже включать в свои реакции такие звуки, как смех или пение.

Когда вы сможете поиграть с новым GPT-4o?
Начиная с сегодняшнего дня, возможности GPT-4o интегрируются в ChatGPT, первоначально в текстовых и графических форматах, и в ближайшее время планируется развернуть аудио- и видеовозможности для выбора партнеров. Он доступен на бесплатном уровне и для пользователей Plus, которым будут доступны до пяти раз более высокие лимиты сообщений.

Функции безопасности
OpenAI утверждает, что внедрила новые методы, гарантирующие, что результаты модели останутся надежными и безопасными во всех новых модальностях. Сюда входят уточненные данные обучения и встроенные средства защиты, специально разработанные для голосового взаимодействия. OpenAI также приглашает к участию в отзывах для уточнения и улучшения GPT-4o.