Google Cloud: La gestion API cause une panne majeure

Google a confirmé qu’un problème au sein de sa plateforme de gestion des API était la cause fondamentale d’une panne généralisée de Google Cloud jeudi, qui a perturbé de nombreux services pendant plus de trois heures. L’incident n’a pas seulement affecté les applications Google essentielles comme Gmail et Agenda, mais a également paralysé les opérations de nombreuses plateformes tierces populaires dépendant de l’infrastructure Google Cloud, y compris Spotify, Discord et des portions de Cloudflare.

Contenu

Identification de l’impact : Qu’est-ce qui est tombé en panne ?
Google identifie la cause fondamentale : Un accroc API
Effets d’entraînement : Les problèmes liés à Cloudflare
Au-delà de Google : Leçons sur la dépendance au cloud et la fiabilité
Perspectives : Ce que cela signifie

Points clés à retenir :

La panne a duré plus de trois heures, débutant vers 10h49 HE.
Google attribue le problème à une mise à jour automatique de quota invalide au sein de son système de gestion des API.
Un manque de systèmes de test et de gestion des erreurs efficaces a retardé la détection et la remédiation.
L’impact s’est étendu à de nombreux services tiers dépendant de Google Cloud.
Cloudflare a confirmé que sa panne connexe était due à une dépendance à l’infrastructure Google Cloud affectée.

Identification de l’impact : Qu’est-ce qui est tombé en panne ?

La perturbation de service, que Google a officiellement déclaré avoir commencé à 10h49 HE et s’être terminée à 15h49 HE, a entraîné une augmentation du nombre d’erreurs 503 pour les requêtes API externes. Ce problème technique s’est traduit par des millions d’utilisateurs à travers le monde rencontrant des difficultés d’accès à une large gamme de services en ligne.

Les services Google affectés comprenaient des outils essentiels pour les utilisateurs personnels et professionnels, tels que Gmail, Google Agenda, Google Chat, Google Docs, Google Drive et Google Meet. Au-delà de l’écosystème de Google, la panne a eu un effet d’entraînement significatif sur Internet, touchant des plateformes comme Spotify, Discord, Snapchat, NPM et Firebase Studio. Cela souligne la profonde dépendance de nombreux services numériques modernes vis-à-vis des fournisseurs de cloud sous-jacents comme Google Cloud.

Google identifie la cause fondamentale : Un accroc API

Dans son analyse initiale, Google a déclaré que le problème central provenait d’une mise à jour automatique de quota invalide dans son système de gestion des API. Ce système est critique car il gère et contrôle la manière dont diverses applications et services interagissent avec l’infrastructure de Google.

La mise à jour erronée a été distribuée mondialement, amenant le système à rejeter incorrectement les requêtes API externes. Pour aggraver le problème, Google a admis que le problème n’a pas été découvert ni résolu aussi rapidement qu’il aurait dû l’être en raison d’un manque de systèmes de test et de gestion des erreurs efficaces en place pour ce scénario spécifique.

Pour restaurer les services, Google a contourné la vérification de quota problématique. Bien que cela ait permis un rétablissement dans la plupart des régions en deux heures, la région us-central1 a connu un rétablissement beaucoup plus lent en raison d’une base de données de politiques de quota surchargée. Certains services ont subi un impact résiduel pendant jusqu’à une heure ou plus même après l’atténuation du problème principal.

Représentation visuelle de l'infrastructure Google Cloud affectée par la panne de gestion API

En réponse à la perturbation significative, Google a présenté ses excuses : « Nous sommes profondément désolés de l’impact causé à tous nos utilisateurs et à leurs clients par cette perturbation/panne de service. Les entreprises, grandes et petites, confient leurs charges de travail à Google Cloud et nous ferons mieux. » Un rapport d’incident complet détaillant les spécificités techniques et les mesures préventives est attendu prochainement.

Pour plus de contexte sur les récentes perturbations de services affectant les plateformes majeures, consultez notre article : Microsoft confirme des problèmes d’authentification affectant les utilisateurs de Microsoft 365.

Effets d’entraînement : Les problèmes liés à Cloudflare

Ajoutant une autre couche à l’impact, la panne a également affecté certains services offerts par Cloudflare, une importante entreprise d’infrastructure Internet. Cloudflare a confirmé dans son rapport post-mortem que son incident n’était pas une violation de sécurité et qu’aucune donnée utilisateur n’a été perdue.

L’entreprise a explicitement lié ses problèmes à une défaillance de l’infrastructure de stockage sous-jacente utilisée par son service Workers KV. Ce service est une dépendance clé pour de nombreux produits Cloudflare.

« Une partie de cette infrastructure est soutenue par un fournisseur de cloud tiers, qui a connu une panne aujourd’hui et a directement affecté la disponibilité de notre service KV », a déclaré Cloudflare. Bien qu’elle n’ait pas nommé directement le fournisseur dans son rapport post-mortem public, un porte-parole de Cloudflare a confirmé que les services affectés étaient ceux dépendant de Google Cloud.

En conséquence directe de cet incident, Cloudflare a annoncé des plans pour migrer le stockage central de son service Workers KV vers son propre stockage d’objets R2. Cette décision stratégique vise à réduire la dépendance aux services externes et à atténuer le risque de voir des pannes similaires impacter leurs services à l’avenir.

Lisez la déclaration de Cloudflare sur leur panne ici : Cloudflare : La panne n’a pas été causée par un incident de sécurité, les données sont en sécurité.

Au-delà de Google : Leçons sur la dépendance au cloud et la fiabilité

Cette panne généralisée sert de rappel brutal de l’interconnexion de l’infrastructure numérique moderne et des risques inhérents associés à la concentration des dépendances sur les principaux fournisseurs de cloud. Bien que les services cloud offrent d’immenses avantages en termes d’évolutivité et de rentabilité, un point de défaillance unique, même subtil comme une erreur de gestion des API, peut se propager en cascade à travers d’innombrables applications et entreprises.

Pour les organisations fortement dépendantes des plateformes cloud, l’incident souligne l’importance d’une surveillance robuste, de dépendances de services diversifiées lorsque cela est possible, et de canaux de communication clairs pendant les pannes. L’engagement de Google à fournir un rapport complet et à améliorer ses systèmes est crucial, mais l’événement met en évidence le défi constant de maintenir une fiabilité parfaite dans une infrastructure mondiale complexe.

La réponse de Cloudflare – migrer un service clé pour réduire la dépendance externe – illustre une approche que les entreprises peuvent envisager pour construire des systèmes plus résilients moins sensibles aux pannes d’un seul fournisseur.

Restez informé sur d’autres perturbations de service importantes : Panne massive de Heroku affecte des plateformes web mondialement.

Perspectives : Ce que cela signifie

L’identification par Google de la défaillance du système de gestion des API apporte de la clarté, mais soulève également des questions sur les processus automatisés et les protocoles de test au sein des infrastructures critiques. Google devrait partager davantage de détails dans son prochain rapport d’incident, décrivant les améliorations techniques spécifiques et les mesures préventives.

Pour les entreprises et les utilisateurs, le point clé à retenir est la vulnérabilité inhérente à la dépendance à de vastes systèmes interconnectés. Bien que la fiabilité du cloud soit généralement élevée, les pannes majeures, même peu fréquentes, peuvent causer des perturbations significatives. Comprendre vos propres dépendances et avoir des plans de contingence est vital dans le paysage numérique actuel.

Pour en savoir plus sur les rapports initiaux concernant la panne, consultez : Google Cloud et Cloudflare frappés par des pannes de services généralisées.