Incident SBG OVHCloud – situation DN au 21/03/2021

Posted by brain in Cloud on 21 mars 2021 with No Comments

Suite à l’incident majeur ayant eu lieu sur le site OVHCloud de Strasbourg et après une étude des risques concernant la localisation SBG, ajouté à des éléments de situation tel que la destruction de l’ensemble des backups hyperviseur qui ne pourront pas être remplacés rapidement sur ce site, nous avons pris la décision de migrer tous les clients se trouvant à SBG sur d’autres clusters situés sur les sites de Roubaix et Gravelines.
 
Pour la suite à moyen terme, nous avons effectué une rapide analyse de risques des différents sites et combiné cette dernière à :
 
– vos contraintes réglementaires
– votre demande d’un bâtiment plus standard en terme de conception de refroidissement
 
Nous avons pour l’instant arrêté notre choix sur le datacenter de Francfort comme 3eme zone pour remplacer SBG. Nous vous tiendrons informé à ce sujet lorsque nous sortirons de la situation de crise actuelle. La photo satellite du site est disponible ci-dessous.

francfort

Concernant la situation de production :
 
– Une partie des backups clients (data + bdd) reste manquante. La volumétrie pour tout recréer prendra beaucoup plus de temps que de récupérer les backups actuels de SBG. ETA estimé -> une semaine
 
– Les backups hyperviseur (une copie intégrale de toutes les machines capable d’être rallumée sur n’importe quel datacenter) sont pleinement fonctionnels, toutes les 24H00 au moment de ce message. En cas de demande de récupération nous avons donc toujours la possibilité (sur GRA et RBX) de monter un répliquat de la VM sur une autre IP et vous y donner accès pour accéder à un backup glissant (en moyenne sur les 5 derniers jours).
 
– Le support technique fonctionne normalement
 
– Les livraisons sont opérationnelles, mais les backups « clients » (hors hyperviseur) des nouvelles livraison (fichiers + bases de données) sont temporairement stockées sur les infrastructures de backup de ScalarX (fondée également par Christophe Casalegno), dans le Datacenter OVH de Londres
 
– Nous ne seront pas en capacité de livrer de nouveaux serveurs dédiés avant plusieurs semaines vu la situation actuelle de la supply chain d’OVH qui doit tourner à plein régime à la fois pour produire des serveurs, et prochainement pour remettre en état des serveurs de SBG1.
 
– Notre capacité à livrer du cloud DN reste pour l’instant opérationnelle.
 
Notre serveur dns secondaire (baine) est définitivement détruit ainsi que ses backups snapshot OVH correspondant. Ce dernier a donc été complètement reconstruit chez un autre fournisseur à Paris afin qu’il reste accessible en cas d’incident majeur sur le réseau OVH et l’ensemble des configurations sont désormais actives. Nous envisageons de porter les serveurs dns à 4 avec un fake master afin de conserver un contrôle total en cas d’incident pour certains types de PRA.
 
Un nouveau cluster équipé de 96CPU (prochainement 128), 768 GB de RAM et 20TB de stockage NVME redondé a été setupé à RBX pour éviter une surcharge des clusters actuels lors de la migration des machines de SBG -> tests ok.
 
Nous avons procédé à l’inventaire des serveurs. Nous sommes encore en attente de la réponse de certains clients qui ont été migrés depuis des backups, mais le nombre de serveurs à transférer entre SBG et la nouvelle infrastructure Netcloud montée à RBX devrait être entre 60 et 80.
 
La priorisation suivante a été effectuée, agrémentée de quelques procédures d’exception relative à la criticité particulière de certains clients :
 
1) Migration des clients n’ayant ni production ni backup
2) Migration des clients n’ayant plus de production mais un backup
3) Migration des PRA/PROD des clients disposant de ces options
4) Migration des serveurs clients déjà rallumés mais devant récupérer des données manquantes.
5) Migration des backups fichiers + base de données pouvant être récupérées.
 
Le rallumage des serveurs se fera au fil de l’eau au fur et à mesure de leur rapatriement sur la nouvelle infrastructure. Bien entendu toutes ces opérations sont conditionnées par la remise sous tension des infrastructures par OVH.
 
 

Back to Top

Retrouvez nous également sur Twitter et Facebook 2018 © Digital Network.