Openai снова использовал данные о платежных сетях для обучения своей модели GPT-4O: отчет

OpenAI снова находится под огнем за свою практику данных, так как новые утверждения предполагают, что компания, возможно, обучила свою последнюю модель GPT-4O, по авторским праву и платному контенту без надлежащего разрешения. Обвинения поступают из проекта по раскрытию информации AI, некоммерческой организации AI-сторожевой организации, основанной в 2024 году медиа-магнатом Тимом О’Рейли и экономистом Илан Штраусом.

Утверждения несанкционированного использования данных обучения

Недавно опубликованное исследование проекта «ИИ раскрытия информации» вызвало противоречие, утверждая, что модель GPT-4O Openai демонстрирует широкое признание книг, защищенных авторским правом, опубликованные O’Reilly Media, несмотря на отсутствие лицензионного соглашения между OpenAI и издателем. Согласно отчету, GPT-4O показывает значительно более высокое признание контента книги O’Reilly Paywally по сравнению со старыми моделями, такими как GPT-3.5 Turbo.

В исследовании использовался метод, известный как «атака членства в выводе» или DE-COP, чтобы проверить, может ли модель достоверно дифференцироваться между текстами, управляемыми людьми, и сгенерированными AI-перефразированными версиями. Если модель ИИ демонстрирует способность различать их, это подразумевает, что модель может иметь предварительное знание исходного текста, предполагая его включение в учебные данные. Исследование проверило 13 962 выдержки из 34 книг O’Reilly, заключив, что GPT-4O «признал» более платный контент, чем GPT-3,5 Turbo, с оценкой AUROC 82% по сравнению с оценкой последнего чуть выше 50%.

Несмотря на убедительные результаты, соавторы, в том числе исследователь искусственного интеллекта Sruly Rosenblat, подтвердили потенциальные ограничения в своей методологии, отметив, что пользователи могли скопировать и вставьте выдержки в CATGPT, что могло бы косвенно ввести контент. Кроме того, исследование не изучило самые последние модели OpenAI, такие как GPT-4.5 и модели рассуждений O3-Mini и O1, оставляя вопросы о том, содержат ли эти модели аналогичные данные.

Более широкая отрасль

Выводы отчета добавляют в текущие юридические проблемы, с которыми сталкиваются Openai, поскольку компания борется с несколькими судебными исками, утверждая, что нарушение авторских прав и несанкционированное использование данных. OpenAI и другие ведущие компании по ИИ выступают за более слабые ограничения на использование защищенных авторским правом данных для модельного обучения, утверждая, что такая практика должна подпасть под доктрину справедливого использования. Примечательно, что OpenAI уже заключила лицензионные предложения с издателями новостей, социальными сетями и библиотеками, занимающимися безопасностью, и нанимает журналистов для точной настройки вывода своих моделей.

Проект раскрытия информации AI подчеркивает системную проблему, которая может повлиять на качество и разнообразие интернет -контента. Исследование утверждает, что использование защищенных авторским правом данных без компенсации может снизить доход для профессиональных создателей контента, что потенциально уменьшило разнообразие контента в Интернете. Он выступает за повышенную ответственность и прозрачность в процессах обучения компаний искусственного интеллекта, призывая к политике, которые обеспечивают компенсацию создателей контента при использовании их данных.

В то время как OpenAI продолжает защищать свою практику, результаты проекта по раскрытию информации ИИ, несомненно, усилили дебаты по поводу авторских прав и этики данных в быстро развивающейся индустрии ИИ. Поскольку юридические сражения продолжаются, вопрос о том, как сбалансировать инновации с правами интеллектуальной собственности, остается нерешенным.