Umweltprojekte

Maschinelles Lernen eröffnet neue Möglichkeiten der Energieeinsparung in Rechenzentren

Dezember 2016
Ein Techniker steht vor der Wand eines Rechenzentrums.

Die virtuelle Welt basiert auf einer physischen Infrastruktur. Jede Suchanfrage, jede E-Mail, jede Website, jeder Post und jedes Video durchläuft Rechenzentren, die größer als ein Fußballfeld sein können. Tausende summende Server-Racks verbrauchen große Mengen an Energie. Alle existierenden Rechenzentren zusammen benötigen etwa 2 % des globalen Strombedarfs, und wenn wir nicht gegensteuern, könnte dieser Energiebedarf so schnell wachsen wie die globale Internetnutzung. Deshalb müssen unsere Rechenzentren so effizient sein wie nur möglich.

Glücklicherweise ist der Stromverbrauch der Rechenzentren – trotz der explodierenden Nachfrage nach Datenverarbeitung in den letzten Jahren – nicht stärker gestiegen. Das liegt vor allem daran, dass sich die Effizienz der Anlagen durch verschiedene Maßnahmen immer weiter steigern ließ – während sie gleichzeitig ständig größer wurden.1 Die eigentliche Herausforderung besteht aber darin, diese verschiedenen Maßnahmen zu erfassen und zu übertragen. Der Standardwert, mit dem sich die Effizienz der Stromnutzung von Rechenzentren messen lässt, die Power Usage Effectiveness (PUE), kann von Dutzenden Faktoren beeinflusst werden. Die Ausstattung eines typischen Rechenzentrums ist vielfältig: von Kühleinheiten und Kühltürmen über Wasserpumpen und Wärmetauscher bis hin zu Kontrollsystemen. Alle haben ihre eigenen Einstellungen und interagieren auf komplizierte und oft kontraintuitive Art und Weise miteinander. Zusätzliche Faktoren wie Lufttemperatur und Lüftergeschwindigkeit machen das System unglaublich komplex. Nehmen wir nur mal ein einfaches Szenario: 10 Anlagenteile mit jeweils 10 Einstellungen ergeben 10 hoch 10, also 10 Milliarden, mögliche Konfigurationen. Diese könnten niemals in der Praxis getestet werden und sind doch noch weit von den möglichen Konfigurationen eines tatsächlichen Rechenzentrums entfernt.

Kühltürme eines Rechenzentrums in Belgien
Kühltürme eines Rechenzentrums in Belgien

Wir beschäftigen uns schon seit Beginn mit der Effizienz unserer Rechenzentren. Wir haben uns früh dazu entschlossen, unsere eigenen Anlagen zu entwerfen und zu bauen, damit wir fortlaufend neue Kühltechniken und Betriebsstrategien entwickeln können. In unseren Rechenzentren verwenden wir anstelle von mechanischen Kühlern moderne Kühltechniken mit hocheffizienter Verdunstungskühlung oder Außenluft, wann immer möglich. Wir haben den Energieverbrauch in unseren Anlagen gesenkt, indem wir eine intelligente Temperatur- und Beleuchtungssteuerung installiert und die Energieverteilung optimiert haben, um Energieverluste zu verringern. Unsere speziell entwickelten Hochleistungsserver verbrauchen besonders wenig Energie – nicht benötigte Komponenten wie z. B. Grafikkarten werden entfernt. Gleichzeitig werden sie aber auch so intensiv wie möglich genutzt, sodass weniger Server mehr leisten können. Dies sind nur einige von vielen Maßnahmen.

Das Ergebnis all dieser Bemühungen zeigte sich im Frühjahr 2014: Unsere Rechenzentren verbrauchten nun 50 % weniger Energie als der Branchendurchschnitt. Dadurch tat sich aber direkt die nächste Frage auf: Wie können wir sie noch effizienter machen? Ein Onlinekurs, in dem es um maschinelles Lernen ging, machte Jim Gao, Ingenieur für Energieeffizienz, neugierig – er wollte uns diese Frage beantworten.

Maschinelles Lernen ermöglicht es Computern zu lernen, ohne speziell dafür programmiert worden zu sein. Durch Wiederholung lernt der Computer, wie sich große Mengen an Daten interpretieren lassen. Wir setzen maschinelles Lernen bereits in der Übersetzung und Bilderkennung ein. Wenn Sie bei Google Fotos nach Bildern von Menschen suchen, die sich umarmen, finden wir die Bilder mithilfe von maschinellem Lernen für Sie.

Ventilblock und Drucksensoren in einem Rechenzentrum
Ventilblock und Drucksensoren in einem Rechenzentrum

Jim Gao hoffte, die Komplexität der Rechenzentren besser zu verstehen, wenn er "die Geschichte hinter den Daten" herausfände. Er tüftelte sechs Monate lang daran, ein realisierbares Modell aller Komponenten in einem Rechenzentrum zu erstellen. "Der Code war ziemlich chaotisch", erinnert er sich, "eher ein Prototyp, um zu beweisen, dass die Idee realistisch war und wert, weiter verfolgt zu werden."

Die ersten Ergebnisse waren nicht gerade vielversprechend. "Die ersten Prognosen lagen ziemlich daneben", gibt Jim Gao zu. "Die Modelle konnten den PUE-Wert und die Folgen unserer Maßnahmen nicht besonders gut vorhersagen." Die erste Empfehlung des Modells war doch tatsächlich, die gesamte Anlage stillzulegen, um eine maximale Energieeinsparung zu erreichen. Streng genommen war das nicht falsch, aber eben auch nicht besonders hilfreich. "Wir mussten unsere KI also dazu bringen, sich etwas erwachsener und disziplinierter zu verhalten", meint Jim Gao. Er änderte die Variablen, ließ die Simulation wieder und wieder ablaufen und näherte dabei das Modell immer stärker an die Konfiguration an, mit der die tatsächliche Leistung der Anlage am genauesten vorhergesagt ‒ und dadurch optimiert ‒ werden konnte. Als er seinen Prototyp für ausreichend genau hielt, veröffentlichte er ein Whitepaper und begann gemeinsam mit dem Betriebsteam damit, die Empfehlungen des Modells in bestehenden Anlagen umzusetzen.

Nur 10 Anlagenteile mit jeweils 10 Einstellungen ergeben 10 hoch 10, also 10 Milliarden, mögliche Konfigurationen. Diese könnten niemals in der Praxis getestet werden.

Zur gleichen Zeit sorgte die führende Google-Forschungsgruppe zu künstlicher Intelligenz, DeepMind, mit einem Artikel für Aufsehen. Darin wurde DQN beschrieben, ein Softwareagent, der richtig gut Atari-Spiele spielen konnte. Und zwar alle Atari-Spiele. Es war eine Sache, einem Programm beizubringen, in einem bestimmten Spiel relativ gut zu sein. Aber ein Programm, das sich selbst beibringen konnte, in verschiedenen Spielen richtig gut zu sein, war etwas völlig anderes. Das war eine Sensation, und als Jim Gao davon hörte, schickte er dem Leiter von DeepMind, Mustafa Suleyman, eine E-Mail mit folgendem Betreff: Maschinelles Lernen + Rechenzentren = genial?

Mustafa Suleyman fand das tatsächlich genial, und so begann DeepMind, mit Jim Gao und seinem Data Center Intelligence Team (DCIQ) an stabileren und allgemeingültigeren Modellen zu arbeiten. Genau wie bei der generalisierten Intelligenz, die statt nur einem alle Atari-Spiele spielen kann, schlägt auch beim maschinellen Lernen für Rechenzentren Allgemeingültigkeit Spezialisierung. Es wäre relativ einfach, ein spezifisches Programm mit einem Modell für jedes einzelne Rechenzentrum zu entwickeln. "Aber es wäre viel besser, wenn wir eine Intelligenz entwickeln könnten, die allgemein einsetzbar ist", meint Jim Gao.

Nahaufnahme von der Hardware in einem Rechenzentrum

Also machten sie sich an die Arbeit. 18 Monate später testeten sie die Modelle in verschiedenen Rechenzentren mit dem Ergebnis, dass die Anlagen 40 % weniger Energie für die Kühlung und 15 % weniger Energie insgesamt verbrauchten. Obwohl in einer Anlage schon ein neuer PUE-Tiefstwert erzielt wurde, ist das wachsende DCIQ-Team der Meinung, dass es erst an der Oberfläche der Möglichkeiten des generalisierten maschinellen Lernens gekratzt hat. Unser Umweltschutzteam möchte, dass unsere Anlagen weniger CO2 ausstoßen. Das Hardware Operations-Team wünscht sich weniger Komponentenausfälle. Das Plattformteam sorgt sich um den Energieverbrauch der Server. Maschinelles Lernen kann helfen, alle diese Wünsche zu erfüllen.

Und für viele andere kann dies ebenfalls nützlich sein. "Wir möchten unsere Erkenntnisse möglichst offen zugänglich machen", betont Jim Gao. "Wir finden, dass unsere Arbeit allen zugutekommen sollte." Demnächst wird ein zweites Whitepaper mit mehr Details zur Arbeit des DCIQ-Teams erscheinen. Wir hoffen, dass andere Rechenzentren damit ebenfalls ihren Energieverbrauch senken können und auch andere Arten von Anlagen, wie Kraftwerke oder Fabriken, davon profitieren. Vielleicht kann die Arbeit des DCIQ-Teams dazu beitragen, dass mehr Unternehmen grüner werden.

1 "United States Data Center Energy Usage Report", U.S. Department of Energy, Lawrence Berkeley National Laboratory, 2016