Cloudflare пояснила причину масштабного збою

Компанія Cloudflare пояснила причину масштабного збою, що стався 18 листопада та вплинув на роботу значної частини інтернету, включно з ChatGPT, X та Downdetector, назвавши це інцидентом "найгіршим від 2019 року".
Зазначається, що проблема виникла через некоректне налаштування запиту у базі даних ClickHouse, яка генерує конфігураційний файл для моделі машинного навчання системи Bot Management.
Зміна в поведінці запиту спричинила появу великої кількості дублікатів даних. Це призвело до швидкого зростання конфігураційного файлу, який перевищив встановлені ліміти пам'яті.Як наслідок, це вивело з ладу основну проксі-систему, яка обробляє трафік клієнтів, що залежить від модуля ботів. Клієнти, які використовували згенерований показник ботів у своїх правилах, почали блокувати реальний трафік, тоді як компанії, які не використовували цю функцію, залишалися онлайн.
Як уточнили у Cloudflare, проблема не була пов'язана з DNS, атакою чи новими системами на базі генеративного ШІ - помилка виникла саме у внутрішній логіці оновлення конфігурації Bot Management.
Для запобігання подібним інцидентам, компанія оголосила такі кроки:
- посилення обробки конфігураційних файлів так само як і користувацького введення;
- розширення кількості глобальних "kill switch" для функцій;
- запобігання ситуаціям, коли core dump або звіти про помилки можуть перевантажувати систему;
- перегляд усіх режимів відмови у ключових проксі-модулях.
За оцінками Cloudflare, приблизно 20% інтернету проходить через її мережу, тому будь-яка помилка у центральних модулях здатна спричинити глобальний вплив.
Нагадаємо, через збій у роботі Cloudflare у всьому світі спостерігалися проблеми із доступом до низки сайтів та онлайн-сервісів.
Хаос в світі. Масштабний збій Cloudflare
Новини від Корреспондент.net в Telegram та WhatsApp. Підписуйтесь на наші канали https://t.me/korrespondentnet та WhatsApp









