Panne Google Cloud : La gestion des API mise en cause

Google a confirmé qu’un problème au sein de sa plateforme de gestion des API était la cause fondamentale d’une vaste panne de Google Cloud survenue jeudi, qui a perturbé de nombreux services pendant plus de trois heures. L’incident a non seulement affecté des applications Google essentielles comme Gmail et Agenda, mais a également paralysé les opérations de nombreuses plateformes tierces populaires s’appuyant sur l’infrastructure Google Cloud, notamment Spotify, Discord et certaines parties de Cloudflare.

Contenu

Portée de l’incident : Quels services ont été touchés ?
Google identifie la cause fondamentale : Un problème avec la gestion des API
Effets d’entraînement : Les problèmes liés de Cloudflare
Au-delà de Google : Leçons sur la dépendance et la fiabilité du Cloud
Perspectives : Ce que cela signifie

Points clés à retenir :

La panne a duré plus de trois heures, débutant vers 10h49 HE.
Google attribue le problème à une mise à jour automatique non valide de quotas au sein de son système de gestion des API.
Le manque de tests efficaces et de systèmes de gestion des erreurs a retardé la détection et la correction.
L’impact s’est étendu à de nombreux services tiers s’appuyant sur Google Cloud.
Cloudflare a confirmé que sa panne connexe était due à une dépendance à l’infrastructure Google Cloud affectée.

Portée de l’incident : Quels services ont été touchés ?

L’interruption de service, que Google a officiellement déclaré avoir débuté à 10h49 HE et s’être terminée à 15h49 HE, a entraîné une augmentation du nombre d’erreurs 503 pour les requêtes d’API externes. Ce problème technique s’est traduit par des millions d’utilisateurs dans le monde entier rencontrant des difficultés d’accès à une large gamme de services en ligne.

Les services Google affectés comprenaient des outils essentiels pour les utilisateurs personnels et professionnels, tels que Gmail, Google Agenda, Google Chat, Google Docs, Google Drive et Google Meet. Au-delà de l’écosystème propre à Google, la panne a eu un effet d’entraînement significatif sur Internet, touchant des plateformes comme Spotify, Discord, Snapchat, NPM et Firebase Studio. Cela souligne la forte dépendance de nombreux services numériques modernes vis-à-vis des fournisseurs de cloud sous-jacents comme Google Cloud.

Google identifie la cause fondamentale : Un problème avec la gestion des API

Dans son analyse initiale, Google a déclaré que le problème principal provenait d’une mise à jour automatique non valide de quotas dans son système de gestion des API. Ce système est critique car il gère et contrôle la manière dont diverses applications et services interagissent avec l’infrastructure de Google.

La mise à jour erronée a été distribuée à l’échelle mondiale, amenant le système à rejeter incorrectement les requêtes d’API externes. Aggravant le problème, Google a admis que le problème n’avait pas été découvert ou corrigé aussi rapidement qu’il aurait dû l’être en raison d’un manque de tests efficaces et de systèmes de gestion des erreurs en place pour ce scénario spécifique.

Pour restaurer les services, Google a contourné la vérification problématique des quotas. Bien que cela ait permis un rétablissement dans la plupart des régions en deux heures, la région us-central1 a connu un rétablissement beaucoup plus lent en raison d’une base de données de politiques de quotas surchargée. Certains services ont subi un impact résiduel pendant une heure ou plus même après la mitigation du problème principal.

Visual de l'infrastructure Google Cloud affectée par la panne de gestion des API

En réponse à cette perturbation significative, Google a présenté ses excuses : « Nous sommes profondément désolés de l’impact que cette interruption/panne de service a causé à tous nos utilisateurs et à leurs clients. Les entreprises, grandes et petites, font confiance à Google Cloud pour leurs charges de travail, et nous ferons mieux. » Un rapport d’incident complet détaillant les spécificités techniques et les mesures préventives est attendu prochainement.

Pour plus de contexte sur les récentes perturbations de services affectant les grandes plateformes, consultez notre article : Microsoft confirms auth issues affecting Microsoft 365 users.

Effets d’entraînement : Les problèmes liés de Cloudflare

Ajoutant une autre couche à l’impact, la panne a également affecté certains services offerts par Cloudflare, une importante entreprise d’infrastructure Internet. Cloudflare a confirmé dans son rapport post-mortem que son incident n’était pas une faille de sécurité et qu’aucune donnée utilisateur n’avait été perdue.

L’entreprise a explicitement lié ses problèmes à une défaillance de l’infrastructure de stockage sous-jacente utilisée par son service Workers KV. Ce service est une dépendance clé pour de nombreux produits Cloudflare.

« Une partie de cette infrastructure est soutenue par un fournisseur de cloud tiers, qui a subi une panne aujourd’hui et a directement impacté la disponibilité de notre service KV », a déclaré Cloudflare. Bien qu’elle n’ait pas nommé directement le fournisseur dans son rapport post-mortem public, un porte-parole de Cloudflare a confirmé que les services affectés étaient ceux qui dépendaient de Google Cloud.

En conséquence directe de cet incident, Cloudflare a annoncé son intention de migrer le magasin central de son service Workers KV vers son propre stockage d’objets R2. Cette décision stratégique vise à réduire la dépendance vis-à-vis de dépendances externes et à atténuer le risque que des pannes similaires n’affectent leurs services à l’avenir.

Lisez la déclaration de Cloudflare sur sa panne ici : Cloudflare: Outage not caused by security incident, data is safe.

Au-delà de Google : Leçons sur la dépendance et la fiabilité du Cloud

Cette vaste panne sert de rappel brutal de l’interconnexion de l’infrastructure numérique moderne et des risques inhérents associés à la concentration des dépendances sur les principaux fournisseurs de cloud. Bien que les services cloud offrent d’immenses avantages en termes d’évolutivité et de rentabilité, un point unique de défaillance, même subtil comme une erreur de gestion des API, peut se propager en cascade sur d’innombrables applications et entreprises.

Pour les organisations qui dépendent fortement des plateformes cloud, l’incident souligne l’importance d’une surveillance robuste, de dépendances de services diversifiées lorsque cela est possible, et de canaux de communication clairs pendant les pannes. L’engagement de Google à fournir un rapport complet et à améliorer ses systèmes est crucial, mais l’événement met en lumière le défi permanent de maintenir une fiabilité parfaite dans une infrastructure mondiale complexe.

La réponse de Cloudflare – migrer un service clé pour réduire la dépendance externe – illustre une approche que les entreprises pourraient envisager pour construire des systèmes plus résilients, moins sensibles aux pannes d’un seul fournisseur.

Restez informé sur d’autres perturbations importantes de services : Massive Heroku outage impacts web platforms worldwide.

Perspectives : Ce que cela signifie

L’identification par Google de la défaillance du système de gestion des API apporte de la clarté, mais soulève également des questions sur les processus automatisés et les protocoles de test au sein des infrastructures critiques. L’entreprise devrait partager plus de détails dans son prochain rapport d’incident, décrivant les améliorations techniques spécifiques et les mesures préventives.

Pour les entreprises et les utilisateurs, le principal enseignement est la vulnérabilité inhérente à la dépendance vis-à-vis de systèmes vastes et interconnectés. Bien que la fiabilité du cloud soit généralement élevée, les pannes majeures, même peu fréquentes, peuvent causer des perturbations importantes. Comprendre vos propres dépendances et avoir des plans d’urgence est vital dans le paysage numérique actuel.

Pour en savoir plus sur les premiers rapports concernant la panne, consultez : Google Cloud and Cloudflare hit by widespread service outages.