Incident Report 02/10/2020 : Disservizio DNS

Timeline

 

 

  1. 09:48 am Rinnovo dominio it presso fornitore OVH: riscontrati problemi DNS
  2. 09:50 am Ban dei server DNS Cloudfire sulla piattaforma OVH
  3. 09:52 am Aperto incident presso fornitore OVH – Contattato ente NIC per verifiche parallele
  4. 09:55 am Inizio attività di ripristino operatività mediante workaround / risoluzione
  5. 02:00 am Risoluzione disservizio

 

Verifiche

 

A seguito della scadenza del dominio “cloudfire.it” e del rinnovo dello stesso, il fornitore OVH ha sostituito i DNS server autorevoli correttamente configurati e già in uso, con DNS di Parking dove viene bloccata qualsiasi risoluzione di nome. L’ effetto è stato l’ immediata irraggiungibilità di tutti i nomi *.cloudfire.it .

Operazioni svolte per la risoluzione disservizio

 

Di seguito l’ elenco, in ordine temporale, delle operazioni svolte:

 

  1. Verifica della causa della mancata risoluzione dei nomi di dominio legati a “it” da imputare alla sostituzione dei server DNS come segue:
    1. cloudfire.it -> parking1.ovh.net
    2. cloudfire.it -> parking2.ovh.net
  2. Apertura incident presso fornitore OVH per ripristino server DNS corretti
  3. Verifica presso ente NIC per le motivazioni legate ai mancati update DNS nelle finestre temporali: 9.00am – 11.00am – 1.00pm – 3.00pm – 5.00pm – 7.00pm – 9.00pm – 11.00pm – 1.00am . La motivazione risultava essere legata alla mancata ricezione, da parte dell’ ente NIC, dei parametri DNS modificati da parte del fornitore OVH.
  4. Contattato telefonicamente e/o a mezzo mail clienti Cloudfire, istruendoli circa il workaround trovato per effettuare il ripristino della raggiungibilità dei servizi (utilizzo DNS pubblici Cloudfire in sostituzione di DNS di terze parti)
  5. Migrazione del dominio “it” presso altro fornitore con conseguente ripristino dei server DNS corretti e ripresa dell’ operatività dei servizi

Nesso causale

 

Dalle analisi svolte durante e a seguito della risoluzione dell’ incident risulta che:

 

  1. Il servizio di rinnovo del dominio fornito da OVH .
  2. Il servizio di sostituzione DNS con fake-dns risulta essere avvenuto in automatico mentre il ripristino dell’ operatività risultava essere un’ operazione manuale da parte del fornitore OVH che, nonostante aggiornamento dell’ incident in stato chiuso e contatti telefonici con il servizio clienti, non è mai stato eseguito
  3. Le informazioni ricevute dall’ ente NIC da parte del fornitore OVH per il dominio “it” risultavano non corrette nelle fasce orarie preposte alla propagazione delle modifiche
  4. La chiusura dell’ incident da parte del fornitore OVH riporta come motivazione :

  1. Il workaround fornito ai clienti ha permesso il ripristino dell’ operatività di tutti i servizi fuorchè quello relativo alle Mail per motivi intrinseci alla tecnologia adottata 

Azioni per migliorare

 

  1. Cambiare fornitore servizio

 

Conclusioni

 

L’ incident ha impattato sull’ intera infrastruttura Cloudfire dalle ore 09.48am di Venerdì 02/10/2020 alle ore 02.00am di Sabato 03/10/2020 e risulta essere stata risolta mediante migrazione del dominio dal fornitore OVH ad altro fornitore.

 

Il workaround suggerito ai clienti, ovvero l’ utilizzo di server DNS Cloudfire (185.132.68.184 e 185.132.68.188), ha ripristinato l’ operatività di tutti i servizi erogati da Cloudfire S.r.l. ,fatta eccezione per il servizio Mail, intrinsecamente risolvibile solo mediante soluzione della problematica.

 

 

 

Reggio Emilia, lì 05/10/2020

 

Roberto Bondavalli 
CTO