Projets environnementaux

Le machine learning révèle de nouvelles possibilités d'économie d'énergie pour nos centres de données

Décembre 2016
Technicien debout devant le mur d'un centre de données

Le monde virtuel repose sur une infrastructure physique. Chaque recherche effectuée, chaque e-mail envoyé, chaque page affichée, chaque commentaire publié et chaque vidéo chargée passent par des centres de données parfois plus grands qu'un terrain de football. Ces milliers de racks de serveurs bourdonnants utilisent de grandes quantités d'énergie. L'ensemble des centres de données actuels utilisent à peu près 2 % de l'électricité mondiale. Si rien n'est fait, ces besoins en énergie pourraient croître aussi rapidement que l'utilisation d'Internet. C'est pourquoi faire fonctionner les centres de données aussi efficacement que possible est un enjeu crucial.

Fort heureusement, malgré la demande informatique croissante, la consommation électrique des centres de données s'est stabilisée au cours des dernières années, principalement en raison des opportunités d'amélioration considérables de ces infrastructures lors de leur expansion.1 Mais ces opportunités ne sont pas toujours faciles à saisir. L'indicateur standard de l'efficacité énergétique des centres de données (Power Usage Effectiveness ou PUE) repose sur des dizaines de variables. Une installation typique comporte de nombreux types d'équipements, y compris des refroidisseurs, des tours de refroidissement, des pompes à eau, des échangeurs de chaleur et des systèmes de contrôle. Chacun possède ses propres paramètres, et tous interagissent de façon complexe et souvent peu intuitive. Ajoutez à cela des facteurs tels que la température de l'air et la vitesse des ventilateurs, et la complexité du système devient inimaginable. Prenons un scénario simplifié : dix équipements, ayant chacun dix paramètres, équivaudraient à dix puissance dix, soit dix milliards de configurations possibles. Ces possibilités dépassent de beaucoup nos capacités de test, mais sont bien inférieures à la quantité réelle de configurations possibles d'un centre de données.

Tours de refroidissement dans un centre de données en Belgique
Tours de refroidissement dans un centre de données en Belgique

Chez Google, l'efficacité des centres de données a toujours été au cœur de notre réflexion. Dès le début, nous avons décidé de concevoir et de construire nos propres installations à partir de zéro, afin de pouvoir tester en permanence de nouvelles technologies de refroidissement et stratégies opérationnelles. Nos centres de données utilisent des techniques de refroidissement avancées, en utilisant un refroidissement par évaporation très efficace ou, si possible, l'air extérieur au lieu de refroidisseurs mécaniques. Nous avons réduit la consommation d'énergie de nos centres de données en installant des commandes intelligentes de température et d'éclairage. Nous avons repensé la distribution de courant afin de minimiser les pertes d'énergie. Nos serveurs hautes performances sont conçus sur mesure pour utiliser le moins d'énergie possible. Dépouillés des composants inutiles tels que les cartes vidéo, ils sont sollicités au maximum afin que nous puissions utiliser le moins de serveurs possible. Et ainsi de suite.

Ces efforts ont été payants. Au printemps 2014, les centres de données de Google utilisaient 50 % moins d'énergie en moyenne que ceux du reste du secteur. Mais bien évidemment, il fallait essayer de faire encore mieux. Un ingénieur en efficacité nommé Jim Gao, dont l'intérêt avait été éveillé par un cours en ligne sur le machine learning, a décidé de le découvrir.

Le machine learning permet aux ordinateurs d'apprendre des choses sans être explicitement programmés. En effet, ils apprenent d'eux-mêmes, par la répétition, comment interpréter de grandes quantités de données. Google l'utilise déjà pour améliorer des fonctionnalités telles que la traduction et la reconnaissance d'image. Lorsque vous demandez des photos de chiens à Google Photos, c'est l'apprentissage automatique qui lui permet de les trouver.

Bloc de vannes d'eau et capteurs de pression dans un centre de données
Bloc de vannes d'eau et capteurs de pression dans un centre de données

Gao espérait parvenir à mieux comprendre le chaos des informations des centres de données en "trouvant l'histoire cachée dans les données". Il a passé six longs mois à se taper la tête contre les murs, erreur après erreur, pour créer un modèle correspondant à chaque composant d'un centre de données. "C'était un code très rudimentaire, explique-t-il, plutôt de l'ordre du prototype, pour prouver que l'idée valait vraiment la peine d'être approfondie."

Les premiers résultats ne furent pas très concluants. "Les premières prédictions étaient totalement à côté de la plaque", admet Jim Gao. "Les modèles ne parvenaient pas à prédire avec exactitude l'efficacité énergétique ni les conséquences de nos actes." En fait, la première recommandation du modèle pour assurer une conservation maximale de l'énergie était de fermer l'installation… Logique, certes, mais pas très utile. "Nous avons dû forcer notre IA à se comporter en adulte responsable, à se discipliner un peu", explique Jim Gao. Il a modifié les variables et a relancé les simulations, en ajustant le modèle au fil du temps pour se rapprocher toujours plus de la configuration qui prédisait le plus exactement (et qui était donc le plus susceptible d'améliorer) les performances réelles de l'installation. Lorsqu'il a estimé que son prototype était suffisamment précis, il a publié un livre blanc et a commencé à travailler avec l'équipe d'exploitation du site pour mettre en œuvre les recommandations du modèle dans les installations réelles.

dix équipements, ayant chacun dix paramètres, équivaudraient à dix puissance dix soit dix milliards de configurations possibles. Ces possibilités dépassent de beaucoup nos capacités de test.

Au même moment, le principal groupe de recherche en intelligence artificielle de Google, DeepMind, faisait sensation avec un article présentant DQN, un agent informatique vraiment doué pour les jeux Atari. Tous les jeux Atari. Or, c'est une chose d'entraîner un programme pour qu'il excelle dans un jeu en particulier... mais c'est une autre paire de manches de créer un programme capable d'apprendre à exceller dans toute une série de jeux. Cette révélation a totalement bouleversé la communauté du machine learning. Lorsque Jim Gao en a entendu parler, il a rapidement envoyé au directeur de DeepMind, Mustafa Suleyman, un e-mail avec comme objet : Machine learning + centres de données = génial ?

M. Suleyman a convenu que Jim Gao avait en effet eu une idée géniale. DeepMind a donc commencé à travailler sur des modèles de travail plus "solides et généraux" avec Jim Gao et son équipe de renseignements sur les centres de données (DCIQ). Tout comme vous préférez une intelligence généralisée pouvant apprendre tous les jeux Atari à un agent hautement spécialisé capable de jouer à un seul jeu, le caractère général l'emporte sur le particulier en matière de machine learning dans les centres de données. Il serait relativement simple de créer un modèle pour chaque centre de données, mais comme l'a souligné Jim Gao, il est bien plus utile de créer un modèle générique dont tout le monde pourrait bénéficier.

Gros plan sur du matériel informatique dans un centre de données

C'est donc ce qu'ils ont fait. Dix-huit mois plus tard, les modèles ont été mis à l'essai dans plusieurs infrastructures et ont permis de diminuer de 40 % l'énergie utilisée pour le refroidissement et de 15 % la facture d'énergie. Bien que l'un de ces essais ait déjà permis d'atteindre un PUE historiquement bas dans l'un des centres de données de test de Google, l'équipe DCIQ estime que l'utilisation de l'apprentissage automatique pour des applications plus générales est appelée à se développer de façon radicale. L'équipe environnementale de Google souhaite que la société réduise ses émissions de carbone. L'équipe d'exploitation du matériel aspire à moins de défaillances de composants. Les responsables de la plate-forme suivent de près la consommation énergétique du serveur. Le machine learning peut tous les aider concrétiser leurs rêves d'efficacité.

Sans parler des rêves du reste du monde. "Nous essayons vraiment de fonctionner en Open Source", explique Jim Gao. "Nous croyons fermement que notre travail peut également servir à d'autres personnes." Un second livre blanc présentant de manière plus détaillée le travail de l'équipe DCIQ devrait sortir prochainement et aider d'autres centres de données à réduire leur consommation d'énergie. De nombreuses autres infrastructures (usines, centrales électriques, etc.) pourraient également en tirer parti. Nous espérons que le travail passé et à venir de DCIQ aidera d'autres entreprises ainsi que d'autres industries à devenir plus écologiques.

1"United States Data Center Energy Usage Report" (Rapport sur la consommation énergétique des centres de données aux États-Unis), Département de l'Énergie des États-Unis, Laboratoire national Lawrence-Berkeley, 2016.