Une grande partie du web s'est effondrée le 21 juin suite à une panne qui a affecté le trafic dans 19 des centres de données de Cloudflare. Malheureusement, ces 19 sites gèrent une proportion importante du trafic mondial. Cette panne a été causée par un changement qui faisait partie d'un projet de longue haleine chez Cloudflare visant à augmenter la résilience de ses sites les plus fréquentés. Une modification de la configuration du réseau dans ces sites a provoqué cette panne.
Ce qui s'était passé était un changement dans les politiques d'annonce de préfixes de l'entreprise, entraînant le retrait d'un sous-ensemble critique de préfixes. Cloudflare utilise le protocole BGP (Border Gateway Protocol). Dans le cadre de ce protocole, les opérateurs définissent quelles politiques (adresses IP adjacentes) sont annoncées aux réseaux (ou pairs) ou acceptées de ceux-ci.
Au cours des 18 derniers mois, Cloudflare s'est efforcé de convertir tous ses sites les plus fréquentés en une architecture plus flexible et plus résiliente. Au cours de cette période, l’entreprise a converti 19 de ses centres de données à cette architecture, appelée en interne Multi-Colo PoP (MCP) : Amsterdam, Atlanta, Ashburn, Chicago, Francfort, Londres, Los Angeles, Madrid, Manchester, Miami, Milan, Mumbai, Newark, Osaka, São Paulo, San Jose, Singapour, Sydney, Tokyo.
Description technique de l'erreur et comment elle s'est produite
Dans le cadre de nos efforts continus pour normaliser la configuration de notre infrastructure, nous avons mis en place un changement pour normaliser les communautés BGP que nous attachons à un sous-ensemble de préfixes que nous annonçons. Plus précisément, nous avons ajouté des communautés informationnelles à nos préfixes locaux.
Ces préfixes permettent à nos métaux de communiquer entre eux, ainsi que de se connecter aux origines des clients. Dans le cadre de la procédure de modification de Cloudflare, un ticket de demande de modification a été créé, qui comprend un essai de la modification, ainsi qu'une procédure de déploiement par étapes. Avant d'être autorisé à sortir, il a également fait l'objet d'un examen par les pairs par plusieurs ingénieurs. Malheureusement, dans ce cas précis, les étapes n'étaient pas assez petites pour permettre de détecter l'erreur avant qu'elle ne nous touche tous.
Bien que Cloudflare ait investi de manière significative dans la conception de notre MCP pour améliorer la disponibilité du service, nous n'avons clairement pas répondu aux attentes de nos clients avec cet incident très douloureux. Nous sommes profondément désolés pour la perturbation subie par nos clients et pour tous les utilisateurs qui n'ont pas pu accéder aux propriétés Internet pendant la panne. Nous avons déjà commencé à travailler sur les changements décrits ci-dessus et nous continuerons à faire preuve de diligence pour que cela ne puisse plus se reproduire.
Un élément essentiel de cette nouvelle architecture, qui est conçue comme un réseau Clos, est une couche supplémentaire de routage qui crée un maillage de connexions. Ce maillage permet de désactiver et d'activer facilement des parties du réseau interne d'un centre de données à des fins de maintenance ou pour faire face à un problème. Cette couche est représentée par spines dans le diagramme suivant.
Selon Cloudflare, cette nouvelle architecture a apporté des améliorations significatives en matière de fiabilité et a permis d'effectuer des opérations de maintenance sur ces sites sans perturber le trafic des clients. Comme ces sites transportent également une proportion importante du trafic de Cloudflare, tout problème ici peut avoir un impact très large, et malheureusement, c'est ce qui s'est passé.
Afin d'être joignables sur Internet, les réseaux comme Cloudflare utilisent un protocole appelé BGP. Dans le cadre de ce protocole, les opérateurs définissent des politiques qui décident quels préfixes (une collection d'adresses IP adjacentes) sont annoncés aux pairs (les autres réseaux auxquels ils se connectent), ou acceptés des pairs.
Ces politiques ont des composantes individuelles, qui sont évaluées de manière séquentielle. Le résultat final est que tout préfixe donné sera soit annoncé, soit non annoncé. Un changement de politique peut signifier qu'un préfixe précédemment annoncé n'est plus annoncé, ce qui est appelé "retrait", et que ces adresses IP ne seront plus accessibles sur Internet.
« Lors du déploiement d'une modification de nos politiques d'annonce de préfixes, une réorganisation des termes nous a obligés à retirer un sous-ensemble critique de préfixes. En raison de ce retrait, les ingénieurs ont éprouvé des difficultés supplémentaires à atteindre les sites concernés pour annuler le changement problématique. », déclare Cloudflare.
Mark Boost, PDG de Civo, une entreprise spécialisée dans les solutions de cloud computing, s'est montré cinglant à l'égard de la panne : « Ce matin, nous avons pris conscience du prix que nous payons pour notre dépendance excessive à l'égard des grands fournisseurs de cloud computing. Il est totalement insoutenable qu'une panne chez un seul fournisseur puisse mettre hors ligne de vastes pans de l'Internet.
« Les utilisateurs d'aujourd'hui comptent sur une connectivité constante pour accéder aux services en ligne qui font partie du tissu de nos vies, ce qui rend les pannes extrêmement préjudiciables... Il ne faut pas oublier que l'échelle ne garantit pas la disponibilité. Les grands fournisseurs de cloud computing doivent gérer un degré élevé de complexité et de pièces mobiles, ce qui augmente considérablement le risque de panne. »
Source : Cloudflare
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Le Japon établit un nouveau record et rapproche le monde d'un internet 100 000 fois plus rapide que les vitesses actuelles, il transmet des données à l'aide d'un câble de fibre optique standard
Les modifications apportées à l'IPv4 pourraient libérer des millions d'adresses, des appels à définir les adresses réservées, invalides ou de bouclage comme des adresses de monodiffusion ordinaires
Le registraire de noms de domaine et hébergeur américain Namecheap met fin à ses services pour les clients russes à cause de l'opération militaire russe en Ukraine, mais prévoit certaines exceptions
Cloudflare explique comment elle a cassé Internet avec une panne qui a affecté le trafic mondial,
Une modification de la configuration du réseau dans ces sites a provoqué cette panne
Cloudflare explique comment elle a cassé Internet avec une panne qui a affecté le trafic mondial,
Une modification de la configuration du réseau dans ces sites a provoqué cette panne
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !