Google Cloud : Gestion API à l'origine d'une panne majeure

Google a confirmé qu’un problème au sein de sa plateforme de gestion des API était la cause première d’une panne généralisée de Google Cloud jeudi, qui a perturbé de nombreux services pendant plus de trois heures. L’incident n’a pas seulement affecté les applications Google essentielles comme Gmail et Agenda, mais a également paralysé les opérations de nombreuses plateformes tierces populaires s’appuyant sur l’infrastructure de Google Cloud, notamment Spotify, Discord et certaines parties de Cloudflare.

Contenu

Identifier l’impact : Qu’est-ce qui a été affecté ?
Google identifie la cause première : Un incident lié aux API
Répercussions : Les problèmes liés de Cloudflare
Au-delà de Google : Leçons sur la dépendance au cloud et la fiabilité
Perspective : Ce que cela signifie

Points clés à retenir :

La panne a duré plus de trois heures, débutant vers 10h49 HE.
Google attribue le problème à une mise à jour automatique de quotas non valide au sein de son système de gestion des API.
Un manque de systèmes de test et de gestion d’erreurs efficaces a retardé la détection et la résolution.
L’impact s’est étendu à de nombreux services tiers dépendant de Google Cloud.
Cloudflare a confirmé que sa panne connexe était due à sa dépendance envers l’infrastructure Google Cloud affectée.

Identifier l’impact : Qu’est-ce qui a été affecté ?

La perturbation des services, que Google a officiellement déclaré avoir commencé à 10h49 HE et s’être terminée à 15h49 HE, a entraîné une augmentation du nombre d’erreurs 503 pour les requêtes d’API externes. Ce problème technique s’est traduit par des millions d’utilisateurs à travers le monde rencontrant des difficultés à accéder à une large gamme de services en ligne.

Les services Google affectés comprenaient des outils essentiels pour les utilisateurs personnels et professionnels, tels que Gmail, Google Agenda, Google Chat, Google Docs, Google Drive et Google Meet. Au-delà de l’écosystème propre à Google, la panne a eu un effet d’entraînement significatif sur Internet, touchant des plateformes comme Spotify, Discord, Snapchat, NPM et Firebase Studio. Cela souligne la profonde dépendance de nombreux services numériques modernes envers les fournisseurs de cloud sous-jacents comme Google Cloud.

Google identifie la cause première : Un incident lié aux API

Dans son analyse initiale, Google a déclaré que le problème principal provenait d’une mise à jour automatique de quotas non valide effectuée sur son système de gestion des API. Ce système est critique car il gère et contrôle la manière dont diverses applications et services interagissent avec l’infrastructure de Google.

La mise à jour erronée a été distribuée mondialement, amenant le système à rejeter incorrectement les requêtes d’API externes. Aggravant le problème, Google a admis que celui-ci n’avait pas été découvert ou résolu aussi rapidement qu’il aurait dû l’être en raison d’un manque de systèmes de test et de gestion d’erreurs efficaces en place pour ce scénario spécifique.

Pour rétablir les services, Google a contourné la vérification de quotas problématique. Bien que cela ait permis la récupération pour la plupart des régions en deux heures, la région us-central1 a connu une récupération beaucoup plus lente en raison d’une base de données de politiques de quotas surchargée. Certains services ont subi un impact résiduel pendant une heure ou plus, même après la résolution du problème principal.

Visuel de l'infrastructure Google Cloud affectée par la panne de gestion des API

En réponse à la perturbation significative, Google a présenté ses excuses : « Nous sommes profondément désolés pour l’impact causé à tous nos utilisateurs et leurs clients par cette perturbation/panne de service. Les entreprises, grandes et petites, confient leurs charges de travail à Google Cloud, et nous ferons mieux. » Un rapport d’incident complet détaillant les spécificités techniques et les mesures préventives est attendu prochainement.

Pour plus de contexte sur les récentes perturbations de service affectant les plateformes majeures, consultez notre article : Microsoft confirme des problèmes d’authentification affectant les utilisateurs de Microsoft 365.

Répercussions : Les problèmes liés de Cloudflare

Ajoutant une autre dimension à l’impact, la panne a également affecté certains services offerts par Cloudflare, une importante entreprise d’infrastructure Internet. Cloudflare a confirmé dans son rapport post-mortem que son incident n’était pas une faille de sécurité et qu’aucune donnée utilisateur n’avait été perdue.

L’entreprise a explicitement lié ses problèmes à une défaillance de l’infrastructure de stockage sous-jacente utilisée par son service Workers KV. Ce service est une dépendance clé pour de nombreux produits Cloudflare.

« Une partie de cette infrastructure est prise en charge par un fournisseur de cloud tiers, qui a connu une panne aujourd’hui et a directement impacté la disponibilité de notre service KV », a déclaré Cloudflare. Bien qu’il n’ait pas nommé le fournisseur directement dans son rapport post-mortem public, un porte-parole de Cloudflare a confirmé que les services affectés étaient ceux qui dépendaient de Google Cloud.

En conséquence directe de cet incident, Cloudflare a annoncé son intention de migrer le stockage central de son service Workers KV vers son propre stockage d’objets R2. Cette mesure stratégique vise à réduire la dépendance envers les fournisseurs externes et à atténuer le risque que des pannes similaires affectent leurs services à l’avenir.

Lisez la déclaration de Cloudflare concernant leur panne ici : Cloudflare : Panne non causée par un incident de sécurité, les données sont en sécurité.

Au-delà de Google : Leçons sur la dépendance au cloud et la fiabilité

Cette panne généralisée sert de rappel brutal de l’interconnexion de l’infrastructure numérique moderne et des risques inhérents associés à la concentration des dépendances sur les principaux fournisseurs de cloud. Bien que les services cloud offrent d’immenses avantages en termes d’évolutivité et de rentabilité, un point de défaillance unique, même subtil comme une erreur de gestion d’API, peut se répercuter sur d’innombrables applications et entreprises.

Pour les organisations qui dépendent fortement des plateformes cloud, l’incident souligne l’importance d’une surveillance robuste, de dépendances de services diverses lorsque possible, et de canaux de communication clairs pendant les pannes. L’engagement de Google à fournir un rapport complet et à améliorer ses systèmes est crucial, mais l’événement met en lumière le défi permanent de maintenir une fiabilité parfaite dans une infrastructure globale complexe.

La réponse de Cloudflare — migrer un service clé pour réduire la dépendance externe — illustre une approche que les entreprises pourraient envisager pour construire des systèmes plus résilients et moins susceptibles de subir des pannes liées à un fournisseur unique.

Restez informé sur d’autres perturbations de service importantes : Panne massive de Heroku impacte les plateformes web mondiales.

Perspective : Ce que cela signifie

L’identification par Google de la défaillance du système de gestion des API apporte de la clarté mais soulève également des questions sur les processus automatisés et les protocoles de test au sein des infrastructures critiques. L’entreprise devrait partager plus de détails dans son prochain rapport d’incident, décrivant les améliorations techniques spécifiques et les mesures préventives.

Pour les entreprises et les utilisateurs, le principal enseignement est la vulnérabilité inhérente à la dépendance envers de vastes systèmes interconnectés. Bien que la fiabilité du cloud soit généralement élevée, les pannes majeures, même peu fréquentes, peuvent causer des perturbations importantes. Comprendre ses propres dépendances et avoir des plans d’urgence est vital dans le paysage numérique actuel.

Pour en savoir plus sur les premiers rapports concernant la panne, consultez : Google Cloud et Cloudflare touchés par des pannes de service généralisées.