Incident du datacenter CERMO le 04/12/2017

A faire : un point avec la DSI sur l'incident, les causes, les conséquences. Egalement des explications sur ce qui s'est passé sur le réseau et les DNS.

le 04/12/17

23h11-17 : Lannister (hôte esx en salle CERMO) down. Redémarrage de certaines VM sur snow (hôte esx en salle BIO), migration d'autres VM, déconnexion du réseau (au sens vmware) de certaines VM. –> ticket en cours auprès de vmware pour investigation
23h35 : snow (et stark) est déconnecté.

le 05/12

07h20-26 : snow est connecté, les VM qui sont dessus sont accessible (mais problèmes DNS niveau UGA)
10h33 : Lannister est de retour électriquement
~11h30 : Lannister est réintégré au cluster vmware. Toutes les VMs sont démarrées mais certaines présentent leur réseau (au sens vmware) en mode “déconnecté”
jusqu'à 17h : migration manuelle de certaines VM vers lannister afin de pouvoir “connecter” leur réseau (au sens vmware) –> lié au ticket vmware afin de comprendre pourquoi une action manuelle était nécessaire.

perte de DNS en debut d'incident :
- les DNS 130.XXX ne répondent pas du tout
- les DNS en 152.XXX répondent mais ne connaissent que les machines en uga (pas de réponses sur osug.fr jmmc.fr)
vers la fin de matinée TBC:
- les DNS qui répondent semblent avoir été alimenté de nouveau avec le contenu de l'IPAM + exterieur
Pas de possibilité d'utiliser les DNS bien connus hors UGA

Incident du datacenter CERMO le 04/12/2017

Chronologie côté vmware

Constats côté services

Wiki de l'UAR OSUG