Incident du datacenter CERMO le 04/12/2017
A faire : un point avec la DSI sur l'incident, les causes, les conséquences. Egalement des explications sur ce qui s'est passé sur le réseau et les DNS.
Chronologie côté vmware
le 04/12/17
- 23h11-17 : Lannister (hôte esx en salle CERMO) down. Redémarrage de certaines VM sur snow (hôte esx en salle BIO), migration d'autres VM, déconnexion du réseau (au sens vmware) de certaines VM. –> ticket en cours auprès de vmware pour investigation
- 23h35 : snow (et stark) est déconnecté.
le 05/12
- 07h20-26 : snow est connecté, les VM qui sont dessus sont accessible (mais problèmes DNS niveau UGA)
- 10h33 : Lannister est de retour électriquement
- ~11h30 : Lannister est réintégré au cluster vmware. Toutes les VMs sont démarrées mais certaines présentent leur réseau (au sens vmware) en mode “déconnecté”
- jusqu'à 17h : migration manuelle de certaines VM vers lannister afin de pouvoir “connecter” leur réseau (au sens vmware) –> lié au ticket vmware afin de comprendre pourquoi une action manuelle était nécessaire.
Constats côté services
- perte de DNS en debut d'incident :
- les DNS 130.XXX ne répondent pas du tout
- les DNS en 152.XXX répondent mais ne connaissent que les machines en uga (pas de réponses sur osug.fr jmmc.fr)
- vers la fin de matinée TBC:
- les DNS qui répondent semblent avoir été alimenté de nouveau avec le contenu de l'IPAM + exterieur
- Pas de possibilité d'utiliser les DNS bien connus hors UGA