Quelques réflexions autour de la panne de service de Gmail le 24 février

le 4 mars 2009 par


Comme des millions d’utilisateurs dans le monde entier, j’ai subi en direct la panne de Google concernant GMail, resté indisponible le 24 février pendant 2h et quelques minutes (pour moi, la durée réelle a été fonction des zones géographiques). Cette panne a concerné aussi bien les boites aux lettres grands public, que les boites aux lettres Google Apps gratuites ET premium. La panne était générale.

En fait c’était l’interface web de Gmail qui était en panne, car le service fonctionnait parfaitement sur l’iPhone (connexion IMAP) et il suffisait donc d’activer une connexion IMAP sur un lecteur de mail sur son bureau (Thunderbird de Mozilla par exemple) pour accéder à nouveau à ses boites aux lettres.

Il n’empêche que la panne fut sévère, et cela m’amène à plusieurs réflexions intéressantes:

Twitter

Mon premier réflexe en voyant le système en panne fut de demander sur Twitter si d’autres avaient le même problème. Et il me fut répondu instantanément que oui. Je n’étais donc pas seul à ne pas pouvoir accéder à GMail… Tout de suite des utilisateurs me donnèrent le lien pour suivre la conversation ainsi que le lien pour connaître l’état de Google Apps.

L’effet psychologique de cet arrêt de travail forcé fût le même que lorsque je travaillais chez des grands-comptes et qu’une panne réseau survenait, tout le monde se levait de son bureau et allait discuter avec les voisins en attendant que ça se passe. Un moment de détente forcé, sommes toutes fort agréable.

Bien que j’étais tout seul chez moi en train de travailler, je me retrouvais interconnecté avec le monde entier en train de discuter en temps réel de la panne et de chercher à savoir quelles en seraient les effets…

Twitter a pris une dimension unique dans les nouveaux usages collectifs, c’est une communauté mondiale de 4 millions d’utilisateurs, et cette panne qui a touché le monde entier en a été un exemple frappant. D’ailleurs ce fût déjà le cas lors de la panne du moteur de recherche qui déclarait tous les sites comme potentiellement dangereux et dont j’avais déjà parlé dans mon blog professionnel, puisque je l’avais vécu en direct aussi.

Le SLA de Google

2h d’arrêt de service de sa messagerie professionnelle, c’est une véritable catastrophe. Sauf qu’au bout de 30 mn quelques utilisateurs sur Twitter avaient quand même décelé que leur iPhone continuait à recevoir les messages, l’info fut donc relayée à toute vitesse en quelques secondes, et nous n’étions plus bloqués.

Mais immédiatement les discussions partirent dans le monde entier sur le fait de confier ses données à Google. Est-ce bien raisonnable ? Vous voyez, même eux peuvent tomber en panne… Et s’ils perdaient tout ? Et s’ils ne trouvaient pas le problème ? C’est la fin de l’internet… Haro sur le cloud computing, etc… etc…

Analysons froidement la situation. Deux heures de panne continue sur deux années d’utilisation (concernant Google Apps en tout cas, et plus sur GMail grand public), cela fait un taux de disponibilité (SLA) de 0,9987%.

Connaissez-vous beaucoup de grands-comptes dont les services informatiques peuvent vous garantir un taux de disponibilité de 0,9987% de leur service informatique 24/7, c’est à dire 2h de panne sur 2 ans ? Sur leurs serveurs physiques ? Sur leurs serveurs de messagerie ? Sur leurs réseaux ? Sur leurs capacité à fournir l’électricité ? Sur les grèves potentielles de leurs personnels ? Personnellement je n’en connais pas, et tout au long de ma carrière professionnelle, les taux d’indisponibilité lors de mes passages dans les grands-comptes ou constatées chez mes clients étaient de très loin bien supérieurs à ces deux heures de panne de Google.

Google gère à ce jour 500 millions de boites aux lettres. Je vous laisse imaginer ce que cela représente en terme de capacité de gestion de cette infrastructure au quotidien, de messages envoyés et reçus, et tout cela pour le monde entier. Aucun grand-compte n’est capable de gérer une telle infrastructure ni n’a la capacité d’offrir une telle qualité de service.

En fait le phénomène de la panne pose question, car on s’attend naturellement à ce qu’un acteur comme Google ne faillisse jamais. Mais preuve en est, ce n’est pas le cas, deux erreurs importantes en quelques semaines, mais immédiatement corrigées, sans aucun dommage, et avec un SLA étonnant qui force l’analyse.

Plus une transparence que peu de DSI de grands comptes peuvent également donner sur leurs problèmes d’infrastructure, là où Google peut le faire grâce à leurs tableaux de bord en ligne.

Cet événement permet donc de se poser les bonnes questions et d’envisager le cloud computing auprès d’acteurs sérieux comme Google comme LA solution d’externalisation de choix d’une partie standardisée de l’infrastructure des grandes sociétés. Ce mouvement naturel s’engage petit à petit et est inéluctable, aussi bien en terme de qualité de service qu’en terme de réduction drastique des coûts. Seuls les entreprise avec des contraintes fortes de confidentialité continueront à gérer leurs infrastructures dédiées, sûrement chez des hébergeurs en mode cloud computing sécurisé et dédié, ou alors à façon dans leurs propres centres d’hébergement pour les plus exigeants.

Service gratuit versus service payant

J’utilise dans mon quotidien deux domaines Google Apps premium, et deux domaines Google Apps gratuits. Le SLA des services premium est garanti, pas celui des services gratuits. Là, les deux niveaux étaient à la même enseigne, aucune différence. Y compris chez me clients grands-comptes ayant acheté des dizaines de milliers d’utilisateurs Google, ils étaient en panne aussi!

Pourquoi payer alors pour un service premium puisqu’apparemment on pourrait penser que l’infratructure Google est strictement la même ?

Je n’ai pas la réponse concernant le SLA, si ce n’est que Google nous a gentiment écrit sur nos comptes Premium pour nous dire que notre période de validité de nos abonnements était prolongée de 15 jours, nous donnant ainsi l’équivalent d’un crédit supplémentaire de garantie de service. Dont acte, surtout que cela dépasse largement les 2h de perte de service.

Il faudra donc vérifier à l’avenir qu’il y a bien une réelle différence de SLA entre les services gratuits et premium. N’oublions pas non plus qu’un service premium c’est beaucoup d’espace de stockage supplémentaire, plus un support dédié et efficace, plus des services comme le Google Video privatif qui n’existent pas dans la solution gratuite, pour au moins 10 fois moins en terme de coûts global par utilisateur que les solutions concurrentes traditionnelles que pourrait mettre en place un grand-compte.

Conclusion

Ce fût une expérience intéressante à beaucoup de titres comme je viens de l’expliquer. Nous entrons dans une nouvelle ère, nous découvrons de nouveaux usages, de nouvelles règles, de nouvelles interactions avec les fournisseurs, de nouveaux canaux de communication entre usagers, de nouveaux moyens de pression.

Nous sommes en train de bâtir le nouvel environnement de travail du futur, beaucoup plus fluide, beaucoup plus efficace et rapide que le précédent.

Il y a d’un coté ceux qui adoptent ces nouveaux environnements de travail et les nouveaux usages et organisatons qui en découlent, et il y a de l’autre coté ceux qui restent sur le quai en arguant de problématiques ou de dangers soit disant insurmontables.

La seule conséquence de tout cela, je le constate tous les jours depuis déjà quelques années, et cela me fait même peur, est que le fossé va grandissant entre ceux qui ont franchi le cap et ceux qui ne l’ont pas franchi. Et cela à tous les niveaux de nos sociétés.

C’est à cet point précis qu’est le nouvelle fracture numérique. Elle ne se situe plus entre ceux qui ont accès ou non à un ordinateur, car le problème ne se posera bientôt plus. Mais entre ceux qui ont changé leurs façons de travailler et ceux qui ne les ont pas changé. Et ceux qui resteront à la traîne auront de plus en plus de mal à franchir ce fossé, car il sera de plus en plus grand.

1 réflexion sur « Quelques réflexions autour de la panne de service de Gmail le 24 février »
  1. Une petite remarque sur le calcul du taux de disponibilité. Si on prend comme période de référence les deux dernières années, alors le taux de disponibilité de GMAIL tel que le définit Miguel est de 99,989% (0,99989). Sur un an, cela le ramène à 99,977% (0,99977).

    Cependant, il est paraît très difficile d’établir le taux de disponibilité de Google Mail (qui reste cela dit certainement très élevé) car il arrive fréquemment que certaines indisponibilités ne touchent que des portions d’utilisateurs… (cf. http://www.gadgetell.com/tech/comment/gmails-down-and-out/)

    Ce qui somme toute augmente le taux de disponibilité par utilisateur, sauf cas exceptionnel comme le 24 février.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *