Cloudflare объяснила причину масштабного сбоя

Компания Cloudflare объяснила причину масштабного сбоя, который произошел 18 ноября и повлиял на работу значительной части интернета, включая ChatGPT, X и Downdetector, назвав этот инцидент "худшим с 2019 года".
Отмечается, что проблема возникла из-за некорректной настройки запроса в базе данных ClickHouse, которая генерирует конфигурационный файл для модели машинного обучения системы Bot Management.
Изменение в поведении запроса вызвало появление большого количества дубликатов данных. Это привело к быстрому росту конфигурационного файла, который превысил установленные лимиты памяти. В результате это вывело из строя основную прокси-систему, которая обрабатывает трафик клиентов, зависящий от модуля ботов. Клиенты, которые использовали сгенерированный показатель ботов в своих правилах, начали блокировать реальный трафик, тогда как компании, не использовавшие эту функцию, оставались онлайн.
Как уточнили в Cloudflare, проблема не была связана с DNS, атакой или новыми системами на базе генеративного ИИ - ошибка возникла именно во внутренней логике обновления конфигурации Bot Management.
Для предотвращения подобных инцидентов компания объявила следующие шаги:
- усиление обработки конфигурационных файлов так же, как и пользовательского ввода;
- расширение количества глобальных «kill switch» для функций;
- предотвращение ситуаций, когда core dump или отчеты об ошибках могут перегружать систему;
- пересмотр всех режимов отказа в ключевых прокси-модулях.
По оценкам Cloudflare, примерно 20% интернета проходит через её сеть, поэтому любая ошибка в центральных модулях способна вызвать глобальное воздействие.
Напомним, из-за сбоя в работе Cloudflare во всем мире наблюдались проблемы с доступом к ряду сайтов и онлайн-сервисов.
Хаос в мире. Масштабный сбой Cloudflare
Новости от Корреспондент.net в Telegram и WhatsApp. Подписывайтесь на наши каналы https://t.me/korrespondentnet и WhatsApp










