La rete Cloudflare è stata colpita da un’interruzione di servizio di ampia portata nella tarda mattinata di martedì 18 novembre, causando problemi di accesso a numerosi siti web a livello globale. Il disservizio ha coinvolto piattaforme molto note e utilizzate, tra cui X, Spotify, OpenAI, Canva e persino Downdetector, il portale che permette di monitorare in tempo reale lo stato dei vari servizi online.
In una prima comunicazione ufficiale, un portavoce dell’azienda ha riferito: «Abbiamo registrato un picco di traffico anomalo su uno dei nostri servizi. Al momento non conosciamo ancora la causa di questo volume insolito». Vista la rapidità con cui l’errore 500 si è propagato e dato il numero di servizi coinvolti, l’evento ha messo in ginocchio Internet.
Cloudflare ha riconosciuto ufficialmente il problema intorno alle 12:17 (ora italiana), avviando immediatamente le verifiche necessarie per comprenderne l’origine e ripristinare gradualmente la piena operatività della rete. Alle 14:09, l’azienda ha dichiarato di aver individuato il problema e di aver avviato il graduale ripristino dei servizi.
Questo “blackout” arriva a breve distanza dall’ampia interruzione che, poche settimane fa, aveva coinvolto Amazon Web Services (AWS), generando disservizi diffusi su moltissimi servizi online.
Le cause dell’interruzione di Cloudflare
Cloudflare ha chiarito che l’accaduto non è stato dovuto ad alcuna attività malevola. L’interruzione – come evidenziato in un articolo – è stata invece provocata da un errore tecnico interno, in particolare da una modifica alle autorizzazioni di uno dei sistemi di database che ha causato la generazione di più voci in un “feature file” utilizzato per la gestione dei bot.
Quello che è accaduto è che questo “feature file”, contenente i parametri sul quale si basa il modello di apprendimento automatico anti-bot dell’azienda, ha improvvisamente raddoppiato il proprio volume a causa della presenza di numerose righe duplicate. Questo file, che viene aggiornato automaticamente ogni 5 minuti e distribuito a tutta la rete globale di Cloudflare, è stato propagato in questa versione aumentata, superando il limite previsto dal software del proxy core, con conseguente errore critico.
In un comunicato, Matthew Prince (CEO di Cloudflare) ha ammesso che «è stata un’interruzione inaccettabile, la peggiore dal 2019. Abbiamo progettato i nostri sistemi in modo che siano altamente resilienti, per garantire che il traffico continui a fluire senza interruzioni. A nome dell’intero team di Cloudflare, vorrei scusarmi per il danno che abbiamo causato a Internet».
Per approfondire: Cos’è e a cosa serve la CDN Cloudflare

