Incident Report 02/10/2020 : Disservizio DNS
Timeline
- 09:48 am Rinnovo dominio it presso fornitore OVH: riscontrati problemi DNS
- 09:50 am Ban dei server DNS Cloudfire sulla piattaforma OVH
- 09:52 am Aperto incident presso fornitore OVH – Contattato ente NIC per verifiche parallele
- 09:55 am Inizio attività di ripristino operatività mediante workaround / risoluzione
- 02:00 am Risoluzione disservizio
Verifiche
A seguito della scadenza del dominio “cloudfire.it” e del rinnovo dello stesso, il fornitore OVH ha sostituito i DNS server autorevoli correttamente configurati e già in uso, con DNS di Parking dove viene bloccata qualsiasi risoluzione di nome. L’ effetto è stato l’ immediata irraggiungibilità di tutti i nomi *.cloudfire.it .
Operazioni svolte per la risoluzione disservizio
Di seguito l’ elenco, in ordine temporale, delle operazioni svolte:
- Verifica della causa della mancata risoluzione dei nomi di dominio legati a “it” da imputare alla sostituzione dei server DNS come segue:
- Apertura incident presso fornitore OVH per ripristino server DNS corretti
- Verifica presso ente NIC per le motivazioni legate ai mancati update DNS nelle finestre temporali: 9.00am – 11.00am – 1.00pm – 3.00pm – 5.00pm – 7.00pm – 9.00pm – 11.00pm – 1.00am . La motivazione risultava essere legata alla mancata ricezione, da parte dell’ ente NIC, dei parametri DNS modificati da parte del fornitore OVH.
- Contattato telefonicamente e/o a mezzo mail clienti Cloudfire, istruendoli circa il workaround trovato per effettuare il ripristino della raggiungibilità dei servizi (utilizzo DNS pubblici Cloudfire in sostituzione di DNS di terze parti)
- Migrazione del dominio “it” presso altro fornitore con conseguente ripristino dei server DNS corretti e ripresa dell’ operatività dei servizi
Nesso causale
Dalle analisi svolte durante e a seguito della risoluzione dell’ incident risulta che:
- Il servizio di rinnovo del dominio fornito da OVH .
- Il servizio di sostituzione DNS con fake-dns risulta essere avvenuto in automatico mentre il ripristino dell’ operatività risultava essere un’ operazione manuale da parte del fornitore OVH che, nonostante aggiornamento dell’ incident in stato chiuso e contatti telefonici con il servizio clienti, non è mai stato eseguito
- Le informazioni ricevute dall’ ente NIC da parte del fornitore OVH per il dominio “it” risultavano non corrette nelle fasce orarie preposte alla propagazione delle modifiche
- La chiusura dell’ incident da parte del fornitore OVH riporta come motivazione :
- Il workaround fornito ai clienti ha permesso il ripristino dell’ operatività di tutti i servizi fuorchè quello relativo alle Mail per motivi intrinseci alla tecnologia adottata
Azioni per migliorare
- Cambiare fornitore servizio
Conclusioni
L’ incident ha impattato sull’ intera infrastruttura Cloudfire dalle ore 09.48am di Venerdì 02/10/2020 alle ore 02.00am di Sabato 03/10/2020 e risulta essere stata risolta mediante migrazione del dominio dal fornitore OVH ad altro fornitore.
Il workaround suggerito ai clienti, ovvero l’ utilizzo di server DNS Cloudfire (185.132.68.184 e 185.132.68.188), ha ripristinato l’ operatività di tutti i servizi erogati da Cloudfire S.r.l. ,fatta eccezione per il servizio Mail, intrinsecamente risolvibile solo mediante soluzione della problematica.
Reggio Emilia, lì 05/10/2020
Roberto Bondavalli
CTO