Une panne majeure a frappé Google Cloud jeudi dernier, affectant de nombreux services Google ainsi que des plateformes majeures comme Spotify et Discord. La cause identifiée : une mise à jour automatisée de quota invalide au sein du système de gestion des API de Google. Cette interruption de service de trois heures met en lumière la dépendance critique de nombreux services en ligne vis-à-vis de l’infrastructure infonuagique sous-jacente. Ce rapport détaille la cause, l’impact et les réactions de Google et de partenaires affectés comme Cloudflare.
Contenu
Panne de jeudi : chronologie et impact
L’interruption a débuté vers 10h49 (HE) et a duré jusqu’à 15h49 (HE), touchant des millions d’utilisateurs dans le monde entier. Outre Google Cloud, des services comme Gmail, Google Agenda, Google Drive et Google Meet ont connu des problèmes. L’effet d’entraînement s’est propagé à des services tiers qui dépendent de l’infrastructure Google Cloud, notamment Spotify, Discord, Snapchat, et certains services Cloudflare utilisant le magasin Workers KV.
Centre de données Google Cloud
Analyse technique de la cause fondamentale
Google a fourni une analyse initiale attribuant l’incident à une « mise à jour automatisée de quota invalide » qui a été distribuée à l’échelle mondiale au sein de sa plateforme de gestion des API. Cette mise à jour défectueuse a entraîné le rejet des requêtes API externes, provoquant des erreurs 503 généralisées. L’entreprise a déclaré que des systèmes de test et de gestion des erreurs inefficaces avaient contribué au retard dans l’identification et la résolution du problème.
Pour résoudre le problème, Google a contourné la vérification de quota problématique, rétablissant la plupart des régions en deux heures. Cependant, la région us-central1 a connu un temps de récupération beaucoup plus long en raison d’une base de données de politiques de quota surchargée. Certains services ont subi des effets persistants, tels que des arriérés de traitement, pendant jusqu’à une heure ou plus après la résolution du problème principal.
Réaction et engagement de Google
Google a présenté des excuses publiques, déclarant : « Nous sommes profondément désolés de l’impact que cette interruption de service/panne a eu sur tous nos utilisateurs et leurs clients. Les entreprises, grandes et petites, font confiance à Google Cloud pour leurs charges de travail, et nous ferons mieux. » L’entreprise travaille actuellement à l’élaboration d’un rapport d’incident complet pour détailler l’événement et les mesures préventives.
Dépendance de Cloudflare et plans futurs
Cloudflare a également commenté la panne, clarifiant que ses problèmes n’étaient pas liés à la sécurité et qu’aucune donnée n’avait été perdue. Leurs services s’appuyant sur le magasin clé-valeur Workers KV ont été affectés car une partie de son infrastructure de stockage sous-jacente dépend d’un fournisseur infonuagique tiers – confirmé par un porte-parole de Cloudflare comme étant Google Cloud.
La panne a souligné la dépendance de Cloudflare vis-à-vis de l’infrastructure infonuagique externe pour des services critiques comme Workers KV, lequel est essentiel pour la configuration, l’authentification et la livraison d’actifs sur nombre de ses produits.
Graphique du taux d'erreurs de Cloudflare Workers KV pendant la panne
En réponse, Cloudflare a annoncé son intention de migrer le magasin central de KV vers son propre stockage objet R2. Ce mouvement stratégique vise à réduire les dépendances externes et à améliorer la résilience de ses services face à des pannes similaires chez les fournisseurs infonuagiques à l’avenir.
Implications et perspectives
Cet incident sert de rappel brutal de l’interconnexion du monde numérique et des potentiels effets en cascade des pannes dans les infrastructures de base comme l’infonuagique. Pour les entreprises s’appuyant fortement sur les services infonuagiques, de tels événements soulignent l’importance de comprendre les dépendances, d’avoir des plans solides de reprise après sinistre et potentiellement de diversifier l’infrastructure critique.
Google publiera probablement un rapport post-mortem détaillé avec des mesures spécifiques pour prévenir la récurrence, en se concentrant sur l’amélioration des tests, de la gestion des erreurs et des procédures de déploiement mondial des mises à jour système. D’autres entreprises touchées évalueront leur dépendance vis-à-vis des fournisseurs infonuagiques uniques et potentiellement accéléreront leurs plans de stratégies multi-cloud ou de déplacement de composants critiques vers une infrastructure autogérée, comme le fait Cloudflare.
Pour en savoir plus sur les récentes interruptions de service et leur impact, explorez ces articles connexes :
- Google Cloud et Cloudflare touchés par des pannes de service généralisées
- Cloudflare : la panne n’est pas due à un incident de sécurité, les données sont en sécurité
- Panne majeure de Heroku affecte les plateformes web du monde entier