Globalna awaria Cloudflare sparaliżowała działanie wielu platform internetowych
Wtorkowa awaria usług Cloudflare wywołała poważne problemy techniczne u największych platform cyfrowych. Użytkownicy zgłaszali trudności z dostępem do serwisów X, Instagram oraz OpenAI, a firma potwierdziła wystąpienie usterki.
Cloudflare potwierdził występowanie problemów technicznych dotykających wielu klientów korzystających z jego usług. Firma poinformowała o prowadzeniu analizy usterki, która spowodowała zakłócenia w funkcjonowaniu platform cyfrowych. Według danych ze strony Downdetector, problemy zgłaszali użytkownicy różnych serwisów internetowych na całym świecie.
Firma Cloudflare świadczy usługi chmurowe dla tysięcy platform i serwisów internetowych. Odpowiada za połączenie domeny strony z serwerem oraz zapewnia ochronę przed atakami spamem i atakami DDoS. Szacuje się, że obsługuje prawie 20 proc. wszystkich stron w internecie, w tym ponad 32 proc. z listy 10 tysięcy najpopularniejszych witryn.
Użytkownicy próbujący wejść na strony obsługiwane przez Cloudflare napotykali komunikaty o błędzie 500 lub 5xx. Przestój dotknął również panel administracyjny Cloudflare Dashboard oraz interfejs API firmy, co uniemożliwiało zarządzanie usługami. Wśród platform dotkniętych awarią znalazły się serwis X.com, usługi OpenAI, Canva oraz mobiDziennik.
Biznes na franczyzie. Mówi, na ile może liczyć franczyzobiorca
Przywracanie usług trwa
O godzinie 14:04 czasu polskiego firma poinformowała o wyłączeniu dostępu WARP w Londynie podczas próby naprawy usterki. Użytkownicy korzystający z tego VPN-a nie mogli się połączyć z siecią. Niedługo później Cloudflare przekazał informację o przywracaniu tej metody połączenia do stanu sprzed awarii.
O godzinie 14:09 czasu polskiego awaria została zdiagnozowana. Cloudflare ogłosił - Problem został zidentyfikowany, a poprawka jest implementowana. Cztery minuty później firma potwierdziła kontynuowanie prac nad przywróceniem pozostałych usług. Ostatecznie usterka została usunięta, a platformy stopniowo wracały do normalnego funkcjonowania.
Podobna sytuacja miała miejsce około miesiąca wcześniej, gdy awaria usługi chmurowej Amazon Web Services spowodowała problemy techniczne u platform takich jak Perplexity, Robinhood i Snapchat. Każdy taki przestój może oznaczać wielomilionowe straty dla firm korzystających z usług dostawców infrastruktury chmurowej.
- Awaria Cloudflare to kolejny sygnał, że dzisiejszy internet jest znacznie mniej zdecentralizowany, niż nam się wydaje. Kilka gigantów infrastrukturalnych obsługuje nieproporcjonalnie dużą część ruchu. Samo przedsiębiorstwo Cloudflare obsługuje około jednej piątej globalnych zapytań, więc pojedyncze punkty awarii szybko i szeroko się rozprzestrzeniają. Widzieliśmy już ten schemat: pojedynczy incydent dot. AWS w Stanach Zjednoczonych ujawnił, jak wiele firm znajduje się w tej samej lokalizacji fizycznej bez prawdziwej odporności wieloregionalnej, a zeszłoroczny problem CrowdStrike pokazał koncentrację zależności rynku EDR. Dobra wiadomość: wydaje się, że zidentyfikowano przyczynę problemu i usługi są przywracane. Wniosek jest jasny: odporność wymaga przemyślanego projektu i architektury wieloregionalnej, ale także, tam gdzie to możliwe, architektury wielodostawczej, solidnego przełączania awaryjnego i łagodnego spadku wydajności oraz zdyscyplinowanej reakcji na incydenty. Nawet najlepszym zdarzają się pomyłki. Sztuka polega na tym, by w takiej sytuacji system, mimo zachwiania, się nie przewrócił - zauważają Andrzej Olender, Platform Engineer i Kamil Nowak, IT Security Engineer w internetowym biurze podróży eSky.pl.