Incident SBG OVHCloud – situation DN au 21/03/2021

Posted by brain in Cloud on 21 mars 2021 with No Comments

Suite à l’incident majeur ayant eu lieu sur le site OVHCloud de Strasbourg et après une étude des risques concernant la localisation SBG, ajouté à des éléments de situation tel que la destruction de l’ensemble des backups hyperviseur qui ne pourront pas être remplacés rapidement sur ce site, nous avons pris la décision de migrer tous les clients se trouvant à SBG sur d’autres clusters situés sur les sites de Roubaix et Gravelines.
 
Pour la suite à moyen terme, nous avons effectué une rapide analyse de risques des différents sites et combiné cette dernière à :
 
– vos contraintes réglementaires
– votre demande d’un bâtiment plus standard en terme de conception de refroidissement
 
Nous avons pour l’instant arrêté notre choix sur le datacenter de Francfort comme 3eme zone pour remplacer SBG. Nous vous tiendrons informé à ce sujet lorsque nous sortirons de la situation de crise actuelle. La photo satellite du site est disponible ci-dessous.

francfort

Concernant la situation de production :
 
– Une partie des backups clients (data + bdd) reste manquante. La volumétrie pour tout recréer prendra beaucoup plus de temps que de récupérer les backups actuels de SBG. ETA estimé -> une semaine
 
– Les backups hyperviseur (une copie intégrale de toutes les machines capable d’être rallumée sur n’importe quel datacenter) sont pleinement fonctionnels, toutes les 24H00 au moment de ce message. En cas de demande de récupération nous avons donc toujours la possibilité (sur GRA et RBX) de monter un répliquat de la VM sur une autre IP et vous y donner accès pour accéder à un backup glissant (en moyenne sur les 5 derniers jours).
 
– Le support technique fonctionne normalement
 
– Les livraisons sont opérationnelles, mais les backups « clients » (hors hyperviseur) des nouvelles livraison (fichiers + bases de données) sont temporairement stockées sur les infrastructures de backup de ScalarX (fondée également par Christophe Casalegno), dans le Datacenter OVH de Londres
 
– Nous ne seront pas en capacité de livrer de nouveaux serveurs dédiés avant plusieurs semaines vu la situation actuelle de la supply chain d’OVH qui doit tourner à plein régime à la fois pour produire des serveurs, et prochainement pour remettre en état des serveurs de SBG1.
 
– Notre capacité à livrer du cloud DN reste pour l’instant opérationnelle.
 
Notre serveur dns secondaire (baine) est définitivement détruit ainsi que ses backups snapshot OVH correspondant. Ce dernier a donc été complètement reconstruit chez un autre fournisseur à Paris afin qu’il reste accessible en cas d’incident majeur sur le réseau OVH et l’ensemble des configurations sont désormais actives. Nous envisageons de porter les serveurs dns à 4 avec un fake master afin de conserver un contrôle total en cas d’incident pour certains types de PRA.
 
Un nouveau cluster équipé de 96CPU (prochainement 128), 768 GB de RAM et 20TB de stockage NVME redondé a été setupé à RBX pour éviter une surcharge des clusters actuels lors de la migration des machines de SBG -> tests ok.
 
Nous avons procédé à l’inventaire des serveurs. Nous sommes encore en attente de la réponse de certains clients qui ont été migrés depuis des backups, mais le nombre de serveurs à transférer entre SBG et la nouvelle infrastructure Netcloud montée à RBX devrait être entre 60 et 80.
 
La priorisation suivante a été effectuée, agrémentée de quelques procédures d’exception relative à la criticité particulière de certains clients :
 
1) Migration des clients n’ayant ni production ni backup
2) Migration des clients n’ayant plus de production mais un backup
3) Migration des PRA/PROD des clients disposant de ces options
4) Migration des serveurs clients déjà rallumés mais devant récupérer des données manquantes.
5) Migration des backups fichiers + base de données pouvant être récupérées.
 
Le rallumage des serveurs se fera au fil de l’eau au fur et à mesure de leur rapatriement sur la nouvelle infrastructure. Bien entendu toutes ces opérations sont conditionnées par la remise sous tension des infrastructures par OVH.
 
 

Incident Datacenter OVH Strasbourg

Posted by brain in Cloud on 19 mars 2021 with No Comments

– Estimation actuelle au vu des informations dont nous disposons actuellement quant au redémarrage complet des plateformes Netcloud DN et des services de backups qui n’ont pas été détruits situés à SBG chez OVHCLOUD : 24 Mars 2021.
 
– Dans l’instant nous estimons qu’il y a de très fortes chances de n’avoir perdu aucune donnée de production client
 
– Quelques infrastructures #OVHCloud SBG (anciennement OVH GS) et maintenant MIS, infogérées par Digital Network, ont pu commencer à être rallumées hier avec succès
 
– Les clients MIS qui ne pouvaient pas être livrés de leurs infrastructures OVHCloud à cause de la saturation actuelle que subit la chaîne d’approvisionnement d’OVH, et ayant fait le choix de la solution d’une infrastructure fournie à titre gracieux par DN durant la période de transition ont bien tous été livrés : les environnements ont été reconstruits, les données migrées depuis les backups disponibles et remis en service.
 
– Le replay du dernier live de Christophe Casalegno au sujet de l’incident affectant les Datacenters OVHCloud de Strasbourg ainsi qu’aux différentes stratégies possibles à adopter pour ceux qui auraient tout perdu est disponible ici :
 

 
– Concernant les propositions de mises à disposition à titre gracieux d’infrastructures / serveurs, le plus rapide est de contacter Christophe Casalegno directement via le réseau Telegram (https://telegram.org) . Les informations de contact sont disponibles dans la description de la vidéo ci-dessus. Si vous êtes client direct DN et y disposez d’un accès vous pouvez également ouvrir un ticket dans le DDS.
 
– Les livraisons de nouvelles infrastructures cloud DN ont pu reprendre un rythme presque normal principalement grâce à notre capacity planning exclusif qui consiste à provisionner 100% des ressources commandées par 100% des clients, augmentées d’une capacité supplémentaire afin de pouvoir rallumer l’intégralité de l’infrastructure en cas de down de l’un des 3 datacenters (Gravelines, Roubaix et Strasbourg) sur lesquels nous sommes actuellement présent.
  
– Les nouvelles infrastructures livrées actuellement disposent temporairement de backups fichiers + base de données au sein des infrastructures de ScalarX situées dans le datacenter OVHCloud de Londres. Au fur et à mesure de la reconstruction de nos infrastructures de backups, les sauvegardes seront basculées sur leurs destination initiale.
  

Back to Top

Retrouvez nous également sur Twitter et Facebook 2018 © Digital Network.