OpenAI использовала более 1 миллиона часов видеоданных YouTube для обучения модели ИИ GPT-4: отчет

Крупные технологические компании, такие как OpenAI, Google и Meta, собрали достаточно данных для обучения своих моделей искусственного интеллекта (ИИ). По мере развития технологий искусственного интеллекта растет спрос на большие объемы высококачественных данных, что подталкивает компании к изучению нетрадиционных, а иногда и противоречивых методов сбора данных. Согласно отчету The New York Times, OpenAI использовала более миллиона часов видео на YouTube для обучения своей большой языковой модели GPT-4.

В отчете утверждается, что модель GPT-4, разработанная OpenAI, была обучена с использованием инструмента распознавания речи под названием Whisper для расшифровки видео YouTube и создания нового разговорного текста. Этот подход, который включал расшифровку более миллиона часов видеоконтента, вызвал обеспокоенность по поводу соблюдения политики YouTube, поскольку YouTube, принадлежащий Google, ограничивает использование своих видео для независимых приложений.

Это открытие произошло через несколько дней после того, как генеральный директор YouTube Нил Мохан заявил, что видеогенератор OpenAI Sora использует данные YouTube. Мохан в интервью WSJ сказал, что ему не известно, использовала ли OpenAI какие-либо данные YouTube для обучения новому видеоинструменту. Однако он заявил, что будет проблемой, если OpenAI будет использовать видео YouTube для обучения новых моделей.

Было обнаружено, что даже Google и Meta (владелец Facebook и Instagram) используют некоторые противоречивые данные. Например, в отчете утверждается, что Google транскрибировал видео с YouTube для обучения искусственному интеллекту, потенциально нарушая законы об авторском праве, и изменил свои условия обслуживания, чтобы использовать больше контента, созданного пользователями. Мета обсуждала приобретение Simon & Schuster для доступа к обширной библиотеке книг и рассматривала возможность использования данных из Интернета, защищенных авторским правом, несмотря на юридические и этические последствия.

Объем данных и производительность ИИ
Эффективность моделей ИИ, особенно в создании текста, изображений, звуков и видео, похожих на человеческие, значительно повышается за счет объема данных, на которых они обучаются. Спрос на высококачественные данные настолько высок, что некоторые технологические компании могут исчерпать доступные интернет-данные к 2026 году.

Отзывы компаний
OpenAI заявила, что каждая из ее моделей ИИ обучается на уникальном наборе данных для поддержания конкурентоспособности в исследованиях. Google признал обучение моделей ИИ на некотором контенте YouTube в соответствии с соглашениями с создателями и пояснил, что не использует данные из офисных приложений за пределами экспериментальной программы. Meta подчеркнула свои инвестиции в интеграцию искусственного интеллекта в свои услуги, используя миллиарды общедоступных изображений и видео.