Поскольку компании полагаются на искусственный интеллект, исследование Microsoft указывает на растущий риск

Инструменты искусственного интеллекта (ИИ) быстро становятся вашими помощниками, помогая создавать электронные письма, редактировать код и даже управлять сложными документами. Но новое исследование предполагает, что передача слишком большого контроля этим системам может повредить той самой работе, которую они призваны улучшить.

Стоит прочитать: Вьетнам выигрывает гонку чипов, которую хотела возглавить Индия

Исследование Microsoft Research показало, что большие языковые модели (LLM), такие как ChatGPT и Claude, могут постепенно ухудшать качество документов, когда их просят выполнить повторяющиеся задачи редактирования. По словам исследователей, в некоторых случаях даже самые продвинутые модели «искажают в среднем 25% содержимого документа» после длительного использования.

Результаты поднимают вопросы о растущей тенденции делегирования задач системам искусственного интеллекта с минимальным контролем на рабочих местах.

Перспективы и риски делегирования ИИ

Идея делегирования ИИ проста. Вместо редактирования файлов вручную пользователи дают инструкции и позволяют системам искусственного интеллекта выполнить задачу. Этот подход, иногда называемый «делегированной работой» или «кодированием вибрации», рассматривается как серьезный сдвиг в том, как выполняется информационная работа. Но это зависит от доверия.

«Делегирование требует доверия – ожидания того, что LLM добросовестно выполнит задачу, не внося ошибок в документы», – пишут исследователи.

Исследование предполагает, что такое доверие может быть преждевременным. Используя тест под названием DELEGATE-52, команда протестировала 19 различных моделей искусственного интеллекта в 52 профессиональных областях: от кодирования и бухгалтерского учета до нотной записи и дизайна текстиля. Целью было создать реальные рабочие процессы, в которых документы редактируются неоднократно с течением времени.

«Наши результаты показывают, что текущие LLM вносят существенные ошибки при редактировании рабочих документов: передовые модели (Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4) теряют в среднем 25% содержимого документа за 20 делегированных взаимодействий, а средняя деградация по всем моделям составляет 50%», — говорится в исследовании.

Маленькие ошибки, большие последствия

Один из ключевых выводов заключается в том, что системы ИИ не всегда выходят из строя очевидным образом. Вместо этого они вводят то, что исследователи описывают как «редкие, но серьезные ошибки, которые незаметно портят документы».

Стоит прочитать: Чистое программное обеспечение быстро становится непригодным для инвестиций: Навал Равикант о том, почему кодирование Vibe меняет все

Это могут быть простые ошибки, такие как неправильный номер или пропущенное предложение. Но когда документ редактируется неоднократно, ошибки накапливаются и меняют конечный результат.

Во всех протестированных моделях средняя деградация достигла около 50% к концу длительных рабочих процессов. Даже системы высшего уровня со временем стали работать плохо.

«Нынешние LLM — ненадежные делегаты», — говорится в документе, отмечая, что производительность падает по мере увеличения взаимодействия.

Почему более длительные рабочие процессы ухудшают ситуацию

В исследовании подчеркивается важнейшая проблема. Системы искусственного интеллекта сталкиваются с длительными, многоэтапными задачами. Хотя многие модели хорошо работают при коротких взаимодействиях, их точность резко снижается, когда задачи объединены в цепочку.

«Краткосрочные результаты… не всегда предсказывают долгосрочные результаты», — обнаружили исследователи.

Стоит прочитать: увольнения в сфере ИИ могут навредить и компаниям, а не только работникам: исследование предупреждает о «ловушке автоматизации»

Это важно, поскольку большая часть реальной работы включает в себя несколько этапов. Документы редактируются снова и снова, а не один раз. Проблема усугубляется с большими и сложными файлами. Больше шагов означает больше шансов на ошибку, и со временем эти ошибки накапливаются.

Можно подумать, что предоставление доступа к таким инструментам, как выполнение кода или утилиты редактирования файлов, сделает ИИ более точным. Но исследование показало обратное.

Модели, в которых использовались инструменты, показали немного худшие результаты. Причина отчасти техническая. Использование инструментов увеличивает объем данных, которые должна обрабатывать модель, что затрудняет поддержание согласованности на всех этапах.

Не все домены равны

Исследование также показывает, что производительность ИИ варьируется в зависимости от типа задачи. Структурированные и основанные на правилах области, такие как программирование, работают намного лучше. Фактически, программирование было единственной областью, в которой большинство моделей могли надежно обрабатывать делегированные рабочие процессы.

Обязательно прочтите: Увольнения в сфере технологий в 2026 году: в апреле из-за изменения приоритетов ИИ было потеряно почти 40 000 рабочих мест

Напротив, задачи, связанные с естественным языком или специализированными форматами, такими как финансовые отчеты или творческие документы, имели гораздо более высокий уровень ошибок.

Что это значит для рабочих мест?

Результаты сделаны в то время, когда компании все активнее интегрируют ИИ в повседневную деятельность. От составления отчетов до управления данными — эти инструменты часто используются с минимальным контролем со стороны человека. Исследование предполагает, что этот подход, возможно, нуждается в переосмыслении.

Пользователям «по-прежнему необходимо внимательно следить за работой систем LLM», предупреждают исследователи, особенно в задачах с высокими ставками.

Несмотря на недостатки, исследователи отмечают, что прогресс стремительный. Новые модели демонстрируют значительные улучшения по сравнению с более ранними версиями, даже если они еще не готовы к полному делегированию.