Серьезный сбой в работе Интернета произошел во вторник утром после того, как широкомасштабное отключение Cloudflare привело к отключению или медленному реагированию нескольких популярных сервисов. Пользователи столкнулись с проблемами на ChatGPT, Claude, Spotify, X и десятках других платформ, каждая из которых использует инфраструктуру Cloudflare, чтобы оставаться в сети.
Cloudflare подтвердил наличие проблемы на своей странице статуса вскоре после 8 утра по восточному времени, подтвердив, что инцидент был выявлен и исправление уже развернуто. В течение двух часов компания объявила, что проблема решена и услуги восстанавливаются, хотя мониторинг продолжится.
В сообщении на X технический директор Cloudflare Дейн Кнехт объяснил, что основной причиной была «скрытая ошибка», которая молча существовала в одной из внутренних систем фирмы. Этот тип ошибки остается скрытым в нормальных условиях и ускользает от обнаружения во время обычного тестирования, но может внезапно вызвать сбой при внесении определенного изменения.
Кнехт сообщил, что этот скрытый недостаток обнаружился после планового обновления конфигурации, которое привело к сбою части системы защиты от ботов Cloudflare. Этот единственный сбой вызвал цепную реакцию, которая прокатилась по сети компании и затронула множество сервисов по всему миру.
«Короче говоря, скрытая ошибка в службе, лежащей в основе наших возможностей по предотвращению ботов, начала давать сбой после обычного изменения конфигурации, которое мы внесли. Это привело к серьезной деградации нашей сети и других служб. Это не была атака», — написал он.
Кнехт извинился перед клиентами, заявив, что Cloudflare подвел их вместе с «широким Интернетом». Он добавил, что компания работает над тем, чтобы подобный инцидент не повторился, и пообещал в ближайшее время провести подробное вскрытие. «Я знаю, что сегодня это причинило настоящую боль», — сказал он.
Несмотря на то, что услуги в основном вернулись в нормальное состояние, Cloudflare отметила, что некоторые пользователи все еще могут сталкиваться с проблемами при доступе к панели управления Cloudflare. Инженеры работают над отдельным исправлением этой проблемы, продолжая отслеживать любые сохраняющиеся аномалии.
Инцидент произошел всего через несколько недель после сбоя в Amazon Web Services, подчеркнув, насколько зависимым стал современный Интернет от небольшой группы инфраструктурных провайдеров. По оценкам, Cloudflare поддерживает около 20 процентов всех веб-сайтов, имеет центры обработки данных в 330 городах и имеет прямые подключения к 13 000 сетям по всему миру. Компания также является крупным поставщиком средств защиты от распределенных атак типа «отказ в обслуживании», что делает сбой во вторник особенно поразительным.