OpenAI опубликовала GPT-4o System Card, подробный исследовательский документ, описывающий протоколы безопасности и оценки рисков, проведенные до публичного выпуска модели в мае. Документ проливает свет на усилия OpenAI по снижению потенциальных рисков, связанных с ее последней мультимодальной моделью ИИ.
До запуска OpenAI использовала стандартную практику использования внешних red teamers, экспертов по безопасности, которым было поручено выявлять уязвимости в системе. Эти эксперты исследовали потенциальные риски, связанные с GPT-4o, такие как несанкционированное клонирование голоса, генерация ненадлежащего контента и нарушение авторских прав.
На основе внутренней структуры OpenAI исследователи классифицировали GPT-4o как имеющий «средний» уровень риска. Эта общая оценка риска была получена из наивысшего индивидуального рейтинга риска по четырем ключевым категориям: кибербезопасность, биологические угрозы, убеждение и автономия модели. Все категории были признаны имеющими низкий риск, за исключением убеждения, где определенные текстовые образцы, сгенерированные GPT-4o, продемонстрировали больший убедительный потенциал по сравнению с аналогами, написанными человеком.
«Эта системная карта включает оценки готовности, созданные внутренней командой, а также внешними тестировщиками, указанными на веб-сайте OpenAI как Model Evaluation and Threat Research (METR) и Apollo Research, обе из которых разрабатывают оценки для систем ИИ», — пояснила представитель OpenAI Линдси МакКаллум Реми.
Этот выпуск следует за аналогичными публикациями системных карт для предыдущих моделей, таких как GPT-4, GPT-4 с видением и DALL-E 3, демонстрируя приверженность OpenAI прозрачности и внешнему сотрудничеству при оценке своих систем ИИ.
Время этого выпуска особенно важно, поскольку OpenAI сталкивается с постоянной критикой в отношении своих методов обеспечения безопасности. Озабоченность высказывали как внутренние сотрудники, так и внешние заинтересованные стороны, включая недавнее открытое письмо сенатора Элизабет Уоррен и представителя Лори Трахан, требующих большей подотчетности и прозрачности в процессах проверки безопасности OpenAI.
Выпуск высокоэффективной мультимодальной модели, такой как GPT-4o, в непосредственной близости от президентских выборов в США вызывает опасения относительно возможности дезинформации и злонамеренной эксплуатации. Системная карта OpenAI направлена на решение этих проблем, подчеркивая проактивные усилия компании по снижению таких рисков посредством тестирования в реальных сценариях.
Несмотря на усилия OpenAI, призывы к большей прозрачности и внешнему надзору сохраняются. Основное внимание уделяется не только данным обучения, но и всему процессу тестирования безопасности. В Калифорнии разрабатывается законодательство, регулирующее крупные языковые модели, включая привлечение компаний к ответственности за потенциальный вред, причиненный их системами ИИ.