Incident SBG OVHCloud – situation DN au 21/03/2021

Posted by brain in Cloud on 21 mars 2021 with No Comments

Suite à l’incident majeur ayant eu lieu sur le site OVHCloud de Strasbourg et après une étude des risques concernant la localisation SBG, ajouté à des éléments de situation tel que la destruction de l’ensemble des backups hyperviseur qui ne pourront pas être remplacés rapidement sur ce site, nous avons pris la décision de migrer tous les clients se trouvant à SBG sur d’autres clusters situés sur les sites de Roubaix et Gravelines.
 
Pour la suite à moyen terme, nous avons effectué une rapide analyse de risques des différents sites et combiné cette dernière à :
 
– vos contraintes réglementaires
– votre demande d’un bâtiment plus standard en terme de conception de refroidissement
 
Nous avons pour l’instant arrêté notre choix sur le datacenter de Francfort comme 3eme zone pour remplacer SBG. Nous vous tiendrons informé à ce sujet lorsque nous sortirons de la situation de crise actuelle. La photo satellite du site est disponible ci-dessous.

francfort

Concernant la situation de production :
 
– Une partie des backups clients (data + bdd) reste manquante. La volumétrie pour tout recréer prendra beaucoup plus de temps que de récupérer les backups actuels de SBG. ETA estimé -> une semaine
 
– Les backups hyperviseur (une copie intégrale de toutes les machines capable d’être rallumée sur n’importe quel datacenter) sont pleinement fonctionnels, toutes les 24H00 au moment de ce message. En cas de demande de récupération nous avons donc toujours la possibilité (sur GRA et RBX) de monter un répliquat de la VM sur une autre IP et vous y donner accès pour accéder à un backup glissant (en moyenne sur les 5 derniers jours).
 
– Le support technique fonctionne normalement
 
– Les livraisons sont opérationnelles, mais les backups « clients » (hors hyperviseur) des nouvelles livraison (fichiers + bases de données) sont temporairement stockées sur les infrastructures de backup de ScalarX (fondée également par Christophe Casalegno), dans le Datacenter OVH de Londres
 
– Nous ne seront pas en capacité de livrer de nouveaux serveurs dédiés avant plusieurs semaines vu la situation actuelle de la supply chain d’OVH qui doit tourner à plein régime à la fois pour produire des serveurs, et prochainement pour remettre en état des serveurs de SBG1.
 
– Notre capacité à livrer du cloud DN reste pour l’instant opérationnelle.
 
Notre serveur dns secondaire (baine) est définitivement détruit ainsi que ses backups snapshot OVH correspondant. Ce dernier a donc été complètement reconstruit chez un autre fournisseur à Paris afin qu’il reste accessible en cas d’incident majeur sur le réseau OVH et l’ensemble des configurations sont désormais actives. Nous envisageons de porter les serveurs dns à 4 avec un fake master afin de conserver un contrôle total en cas d’incident pour certains types de PRA.
 
Un nouveau cluster équipé de 96CPU (prochainement 128), 768 GB de RAM et 20TB de stockage NVME redondé a été setupé à RBX pour éviter une surcharge des clusters actuels lors de la migration des machines de SBG -> tests ok.
 
Nous avons procédé à l’inventaire des serveurs. Nous sommes encore en attente de la réponse de certains clients qui ont été migrés depuis des backups, mais le nombre de serveurs à transférer entre SBG et la nouvelle infrastructure Netcloud montée à RBX devrait être entre 60 et 80.
 
La priorisation suivante a été effectuée, agrémentée de quelques procédures d’exception relative à la criticité particulière de certains clients :
 
1) Migration des clients n’ayant ni production ni backup
2) Migration des clients n’ayant plus de production mais un backup
3) Migration des PRA/PROD des clients disposant de ces options
4) Migration des serveurs clients déjà rallumés mais devant récupérer des données manquantes.
5) Migration des backups fichiers + base de données pouvant être récupérées.
 
Le rallumage des serveurs se fera au fil de l’eau au fur et à mesure de leur rapatriement sur la nouvelle infrastructure. Bien entendu toutes ces opérations sont conditionnées par la remise sous tension des infrastructures par OVH.
 
 

Incident Datacenter OVH Strasbourg

Posted by brain in Cloud on 19 mars 2021 with No Comments

– Estimation actuelle au vu des informations dont nous disposons actuellement quant au redémarrage complet des plateformes Netcloud DN et des services de backups qui n’ont pas été détruits situés à SBG chez OVHCLOUD : 24 Mars 2021.
 
– Dans l’instant nous estimons qu’il y a de très fortes chances de n’avoir perdu aucune donnée de production client
 
– Quelques infrastructures #OVHCloud SBG (anciennement OVH GS) et maintenant MIS, infogérées par Digital Network, ont pu commencer à être rallumées hier avec succès
 
– Les clients MIS qui ne pouvaient pas être livrés de leurs infrastructures OVHCloud à cause de la saturation actuelle que subit la chaîne d’approvisionnement d’OVH, et ayant fait le choix de la solution d’une infrastructure fournie à titre gracieux par DN durant la période de transition ont bien tous été livrés : les environnements ont été reconstruits, les données migrées depuis les backups disponibles et remis en service.
 
– Le replay du dernier live de Christophe Casalegno au sujet de l’incident affectant les Datacenters OVHCloud de Strasbourg ainsi qu’aux différentes stratégies possibles à adopter pour ceux qui auraient tout perdu est disponible ici :
 

 
– Concernant les propositions de mises à disposition à titre gracieux d’infrastructures / serveurs, le plus rapide est de contacter Christophe Casalegno directement via le réseau Telegram (https://telegram.org) . Les informations de contact sont disponibles dans la description de la vidéo ci-dessus. Si vous êtes client direct DN et y disposez d’un accès vous pouvez également ouvrir un ticket dans le DDS.
 
– Les livraisons de nouvelles infrastructures cloud DN ont pu reprendre un rythme presque normal principalement grâce à notre capacity planning exclusif qui consiste à provisionner 100% des ressources commandées par 100% des clients, augmentées d’une capacité supplémentaire afin de pouvoir rallumer l’intégralité de l’infrastructure en cas de down de l’un des 3 datacenters (Gravelines, Roubaix et Strasbourg) sur lesquels nous sommes actuellement présent.
  
– Les nouvelles infrastructures livrées actuellement disposent temporairement de backups fichiers + base de données au sein des infrastructures de ScalarX situées dans le datacenter OVHCloud de Londres. Au fur et à mesure de la reconstruction de nos infrastructures de backups, les sauvegardes seront basculées sur leurs destination initiale.
  

Migration et modernisation des infrastructures France Sud vers TDF

Posted by brain in Général on 15 mai 2016 with No Comments

Digital NetworkNous allons prochainement procéder à la modernisation de nos infrastructures France Sud actuellement situées dans le datacenter Digital Dimension de La Ciotat. Cela fait maintenant près de 7 ans que nous sommes implantés sur ce site, 7 ans durant lesquels vos besoins ont évolué, notre métier aussi, passant successivement par les étapes des statuts d’infogéreur, hébergeur, datacenter, opérateur pour arriver au stade où nous en sommes : celui de MSP (Managed Services Provider).
 
Nous avons reçu vos nombreux feedback que ce soit en terme de solutions techniques, d’offres commerciales, de délais ou d’exploitation : l’infrastructure Netcloud v3.1 que certains d’entre vous utilisent déjà depuis plusieurs semaines, est l’aboutissement de cette évolution et du glissement technologique de l’écosystème Datacenter vers l’ecosystème Cloud qui nous permet aujourd’hui de proposer le même niveau de service dans différentes régions du monde.
 
Pour autant les aspects datacenter, réseau et sécurité ne doivent pas être négligés, et doivent au contraire être renforcés : c’est ainsi que nous avons entammé la fusion des trois normalisations internes que nous utilisons aujourd’hui dans la sélection de nos partenaires (DCD : Digital Certified Datacenter, DCN : Digital Certified Network et DCS : Digital Certified Security) vers une norme unique : DCI (Digital Certified Infrastructure) qui tient compte de l’ensemble des critères (sécurité, disponibilité d’un bâtiment, redondance électrique, climatisation, nombre d’opérateurs réseaux, qualité des routes, etc.) au sein d’un seul et même document unique pour l’ensemble de nos activités, que ce soit en France, en Europe ou Hors Europe.
 
Datacenter TDF
 
Pour en revenir à la zone France Sud, le site qui a finalement été retenu pour succéder à notre implantation actuelle à La Ciotat est le site de TDF Realtor, à Aix-en-Provence. Nul besoin de vous présenter TDF :  partenaire historique Français dans les domaines des médias et des télécoms depuis plus de 40 ans et présent sur près de 9500 « points hauts » de France dont la célèbre Tour Eiffel ou encore sur le Pic du Midi etc. Il s’agit plus particulièrement de la DTS, Division Télécoms et Services avec laquelle nous allons mettre en place un contrat cadre pour une première tranche de 3 ans.
 
Ce ne sont pas moins de 15 millions d’euros qui ont été investis par TDF dans ce bâtiment, connu historiquement comme le site émetteur de Réaltor, afin de le transformer en Datacenter de près  1700 mètres carrés  à la pointe de la technologie et de la sécurité. Ce dernier a ouvert ses portes courant du second semestre  2014, il s’agit donc de l’un des datacenters les plus récents disponibles sur le marché Européen.
 

 
En résumé quels seront les changements ? Ils seront nombreux, vous trouverez ici un néanmoins assez long aperçu des grandes lignes qui ne représentent pourtant qu’une partie de ces changements.
 
Les aspects qualités : TDF a fait le choix de la mise en place d’un système de management de la qualité selon les principes de la norme ISO 9001, augmenté grace à plus de 40 ans d’expérience dans son métier. Cette démarche va totalement dans le sens de la politique “qualité” que nous enrichissons chaque trimestre.
 
La sécurité : TDF a obtenu depuis Novembre 2015, la certification ISO 27001 (management de la sécurité de l’information) pour l’ensemble de ses Datacenters, ce qui va totalement dans le sens de notre approche technique toujours basée sur 4 critères (performance, disponibilité, simplicité et flexibilité) pilotés par une seule et même gouvernance : notre métier d’origine : la sécurité. Cette certification, outre le fait d’être un gage qualité, nous permet de pouvoir envisager à terme, l’obtention de l’agrément d’hébergement de données santé, ainsi que la certification PCI-DSS.
 
baies
 
Le site bénéficie d’une présence sécurité 24/7 ainsi que d’un système de contrôle d’accès intelligent et de badges personnalisés (EVOLYX) permettant une traçabilité totale de l’ensemble des accès (accès principal, sas unipersonnel, parties communes, salles dédiées, salles mutualisées, cages privatives de stockage, MMR et poste de contrôle).
 
Le support technique : avec un service de prise en compte des appels et suivi des tickets incidents en réel 24/7 ainsi qu’un centre d’exploitation et de supervision qui travaille également 24/24 et 7/7, TDF est l’un des rares acteur dans ce domaine à être en phase avec nos contraintes de support, ce qui constitue là encore, une nette amélioration de nos services pour la zone sud.
 
Le Datacenter (l’énergie) : Alors que la plupart des datacenters affichent une politique N+1, 2, etc à la manière des RAID 5 ou 6 dans le stockage. TDF a choisi une approche 2N pour son infrastructure énergétique, c’est à dire la redondance systématique intégrale, que ce soit au niveau des arrivées d’énergie, des groupes électrogènes, des TGBT (dans des locaux séparés), des onduleurs (également dans des locaux séparés) et la distribution électrique (double distribution directement jusque dans la baie équipée de 2 PDU). Cependant le site de Realtor bénéficie encore de spécificités : Au lieu de 2 arrivées d’énergie ce sont 3 arrivées EDF réellement indépendantes (et non une simple boucle) qui sont présentes : 1 arrivée aérienne ainsi que 2 arrivées souterraines tandis que les groupes électrogènes sont isolés dans un bâtiment indépendant haute sécurité.
 
infra
 
Le Datacenter (le refroidissement) : Pas de grand changement au niveau du système de refroidissement : on reste sur un système de couloirs d’air chaud fermés avec de la climatisation de proximité, ce qui permet d’avoir une meilleure répartition du refroidissement face à des solutions du type faux-plancher ventilé qui a la fâcheuse tendance à créer des “points chauds”.
 
Groupes froids
 
Le Datacenter (eau et incendie) : Toutes les salles sont bien entendu équipées de systèmes de détection des incendies via des détecteurs adressables et raccordés en boucle. Une double détection est réalisée par des détecteurs de type OA-O raccordés sur une même boucle et sur deux zones différentes.
 
En cas de confirmation d’incendie, l’extinction se fait par gaz inerte IG 55 (composé de 100% d’azote). Il s’agit d’un agent transparent qui ne gêne pas la vision, ne laisse pas de résidu et n’a aucun effet sur la couche d’Ozone. Enfin un système de câbles de détection et de localisation des fuites d’eau a également été mis en oeuvre permettant la localisation d’une fuite ou d’un défaut avec une localisation au mètre près.
 
Le réseau : le réseau est le service qui vous impacte chaque jour, chaque minute, chaque seconde. Il s’agit de l’un des aspects les plus critiques de nos services. Le site choisi est pourvu de 2 MMR, ainsi que de 2 adductions de raccordement aux POP fibres optiques.
 
De plus ce datacenter dispose d’une autre spécificité par rapport aux autres sites de TDF : Il est situé à proximité d’une artère de passage Fibre Optique, reliant Marseille (l’arrivée des câbles sous-marins) à Paris en passant par Lyon : les opérateurs nationaux et internationaux y possède donc généralement plusieurs fourreaux de fibre et il est très facile pour eux de s’interconnecter dans les chambres présentes en bordure de site.
network
Pour notre cœur de réseau nous avons choisi d’exploiter le réseau Arkena via l’AS 43646. Arkena (groupe TDF), c’est un nom que vous ne connaissez peut être pas, mais ce sont des références tel que TF1, Technicolor, FOX, Disney, Bein Sports ou Universal. Qu’est ce que cela signifie concrètement pour vous ?
 
– Le passage de 3 à 4 opérateurs IP (Tata, TeliaSonera, Cogent, et Level3)
– 1 Tb/s de bande passante totale en uplink
– Enfin un support d’IPv6 natif que beaucoup d’entre vous réclamaient.
– Une vraie supervision humaine du réseau 24/24 et 7/7 en phase avec nos équipes.
 
Nous serons également connectés à plus de 5000 kms de fibres optiques du réseau TDF RUHD (Réseau Ultra-Haut Débit), permettant d’atteindre des débits se chiffrant en Tb/s. Ce réseau peut être aussi bien utilisé pour transporter des flux voix, data et vidéos que pour le transport de données sensibles, la visioconférence, ou encore la retransmission d’événements temps réel d’image HD non compressées par exemple.
cube
Actuellement 32 POP fibres ou Datacenters sont connectés sur ce réseau et 88 longues d’ondes sont disponibles pour une capacité maximale de plus de 17 Tb/s. A ceci se rajoute plus de 380 points d’accès constitués de Faisceaux Hertziens numériques haut débit (de 155 à 300 Mb/s) bidirectionnels et de fibre optique reliant les différents points de présence du backbone aux centres de diffusion de TDF et aux points de prise en charge du signal chez le client : nous seront ainsi prochainement capables de connecter et d’interconnecter directement certains d’entre vous, depuis vos bureaux !.
 
Les opérateurs OBS (Orange Business Services), Completel et PacWan sont également disponibles sur place et il est également possible de ramener n’importe quel opérateur au travers de la boucle RUHD évoquée plus haut.
 
Concrètement cela signifie également que nous pourrons demain répondre à certains projets pour lesquels nous ne nous pouvions pas nous positionner directement aujourd’hui, afin de pouvoir délivrer nos services près de chez vous. Nous sommes entrain d’étudier comment nous allons pouvoir intégrer et vous proposer, tous ces nouveaux services, et surtout vous permettre de les proposer à vos clients.
 
Le début des travaux (migration comprise) a été programmé pour le mois de juin avec une fin de travaux qui devrait être enregistrée courant juillet. La suite ? c’est pour bientôt…
 

Christophe Casalegno

Back to Top

Retrouvez nous également sur Twitter et Facebook 2018 © Digital Network.