環境プロジェクト

機械学習を利用してデータセンターのエネルギーを節約する新たな方法を見いだす

2016 年 12 月
データセンターの壁の前に立つ技術者。

仮想世界は物理的なインフラストラクチャ上に構築されます。送信される検索キーワード、配信されるページ、投稿されるコメント、読み込まれる動画はすべて、ときにはサッカー場よりも広大なデータセンターを通過しています。何千台ものラックに搭載され、音を立てて稼働するサーバー群は、膨大な量のエネルギーを消費しています。既存のすべてのデータセンターで消費される電力を合計すると、世界の電力のおよそ 2% にも上ります。何も対策を講じなければ、このエネルギー需要はインターネットの利用と同じペースで拡大していく可能性があります。そのため、データセンターを可能な限り効率化することは、極めて重要な課題となります。

幸いなことに、コンピュータ処理の需要が増大しているにもかかわらず、データセンターの電力消費は過去数年間で横ばいです。その主な理由は、設備の規模が拡大するにつれて、効率性を改善できる余地も大きくなるからです。1 しかし、この余地を把握するには非常に複雑なプロセスを経る必要があります。データセンターのエネルギー効率の標準的な指標である PUE(Power Usage Effectiveness: 電力使用効率)は、さまざまな要因に左右される可能性があります。一般的な施設では、冷却装置、冷却塔、給水ポンプ、熱交換器、制御システムなど多様な装置を備えています。それぞれに固有の設定があり、すべてが複雑に、ときには予期外の形で相互に作用しています。気温やファン回転速度などの要因も考慮すると、システムの複雑度は天文学的に高まります。たとえば、簡単なシナリオを考えてみましょう。10 台の装置のそれぞれに 10 通りの設定があるとします。それだけで 10 の 10 乗、つまり 100 億通りの構成が考えられ、人の手で実際にテストできる能力をはるかに超えてしまいます。それでも、実際のデータセンターで取られ得る構成の数に比べれば、ずっと少ないのです。

ベルギーにあるデータセンターの冷却塔
ベルギーにあるデータセンターの冷却塔

Google はデータセンターについて検討を始めた当初から、その効率性について考えてきました。新しい冷却技術と運用方法を継続的に試せるように、独自の施設を一から設計し、構築しようと早い段階から決めていました。Google のデータセンターでは先進的な冷却技術を採用しており、可能な場合は機械式冷却装置の代わりに、効率性の高い気化冷却や外気を使用しています。高性能な温度照明制御システムを備え、電力配給の設計を見直してエネルギー損失を最小限に抑えることで、施設のエネルギー消費を削減しました。Google の高性能サーバーは、エネルギー消費をできるだけ抑えるようにカスタム設計され、ビデオカードのような不要な部品は排除されています。より少ない台数のサーバーでより多くの処理を行えるように、稼働率も高く維持されています。

こうした努力の結果、2014 年春には、Google のデータセンターのエネルギー消費量は業界平均の 50% まで下がりました。もちろんこれで満足することはなく、さらに運用効率を高めるにはするにはどうすればよいかということが次の課題となりました。効率化エンジニア、ジム ガオは、機械学習についてのオンライン クラスの受講をきっかけにこの問題に関心を抱き、その答えを追求することを決意しました。

機械学習を利用すれば、コンピュータ自らが大量のデータの解釈方法を繰り返し学習することで、プログラムを組まなくても物事を学ぶ能力を身につけることができます。Google はすでに、翻訳や画像認識のような機能の向上に機械学習を取り入れています。たとえば、Google フォトでハグする人の写真を探す際に、その検索を可能にしているのは機械学習です。

データセンター内の給水バルブ連結管と水圧センサー
データセンター内の給水バルブ連結管と水圧センサー

ガオは、「データに隠されたストーリーを見つけ出す」ことで、データセンターの膨大な情報をもっと理解できるようになるかもしれないと考えました。そして、「エラーばかり発生する、頭の痛い 6 か月間」を過ごしながら、1 か所のデータセンター内のすべての構成要素の概念実証モデルを構築しました。「お粗末なプログラムでした。このアイデアが有効で、試す価値があることを証明するために作ったプロトタイプでした」と彼は語ります。

当初の結果は大きな期待を抱かせるものではありませんでした。「最初の予測は使い物になりませんでした」と彼は認めています。「このモデルでは、PUE や操作の影響をうまく予測することができなかったのです。」実は、最大の省エネルギーを達成する方法を質問したとき、モデルが最初に提案したのは、施設全体を停止することだったのです。間違いではありませんが、役に立つ答えでもありませんでした。「この人工知能に、もう少し自己管理ができる、責任ある大人になってもらわなければなりませんでした」と彼は語ります。変数を変えてシミュレーションを再び実行し、時間をかけてモデルを調整しながら、施設の実際のパフォーマンスをほぼ正確に予測できる(つまり、改善に役立てることができる)設定に近づけていきました。プロトタイプの精度が十分に上がったと感じたところで、ホワイト ペーパーを公開し、現場の運営チームの協力を仰ぎました。モデルの推奨設定を実際の施設に適用することにしたのです。

10 台の装置のそれぞれに 10 通りの設定があるとします。それだけで 10 の 10 乗、つまり 100 億通りの構成が考えられ、人の手で実際にテストできる能力をはるかに超えてしまいます。

同じ頃、Google の主要な人工知能研究グループ DeepMind は、Atari 社製のビデオゲームを極めて上手にプレイするコンピュータ エージェント「DQN」に関する論文を発表し、評判を呼んでいました。DQN が対象としていたのは、Atari 社製の全種類のゲームです。プログラムを、特定のゲームを上手にプレイできるよう訓練することと、自己学習によって全種類のゲームに秀でるようにすることとでは、まったく次元が異なります。機械学習の世界では、まさに衝撃的なニュースでした。ガオはこの話を耳にするとすぐに、DeepMind の責任者、ムスタファ スレイマン氏に次のような件名のメールを送りました。「機械学習 + データセンター = すごいよね?」

スレイマン氏は、ガオは本当に「すごいこと」に取り組んでいると賛同しました。こうして、DeepMind は、より「堅牢で汎用的」なワーキング モデルの実現を目指して、ガオが率いるデータセンター インテリジェンス(DCIQ)チームと共同作業を開始しました。求められているのは、1 種類の Atari 社製ゲームをプレイできる特定のプログラムではなく、全種類の Atari 社製ゲームを学習できる汎用的なインテリジェンスです。これは、データセンターの機械学習においても同様です。各データセンターをモデル化したカスタム プログラムを作成するのは比較的容易です。しかし、「誰もが利用できる汎用的なインテリジェンスを構築できるのなら、その方がずっといいですよね」とガオは語ります。

データセンター内のハードウェアの写真

そして、彼らはそれを実現したのです。18 か月後、モデルを複数の施設に試験導入した結果、冷却に使用されるエネルギーが 40%、関連するエネルギー使用量の全体が 15% 削減されました。この試験的プログラムのおかげで、Google のあるテスト データセンターでは PUE の最小記録を更新しました。しかし、成長を続ける DCIQ チームは、これを機械学習のより汎用的な応用の始まりに過ぎないと考えています。Google の環境チームは、Google の二酸化炭素排出量を削減したいと考えています。ハードウェア運営チームは、部品の故障を減らしたいと切望しています。プラットフォーム チームは、サーバーのエネルギー消費量を懸念しています。機械学習は、こうした各チームが目指すあらゆる効率化の目標実現に役立つ可能性があります。

もちろん、Google に限らず他のあらゆる状況においても役立てていただけます。「これについてはオープンソースにしたいと考えています。私たちの取り組んでいることは他の人にも役立つと確信しています」とガオは述べます。DCIQ の活動について詳しく記載した 2 つ目のホワイト ペーパーが間もなく公開される予定ですが、この資料は、他のデータセンターでもエネルギー消費の削減に役立てていただけるでしょう。発電所や工場などの数多くのさまざまな施設でも、利用できる設備があるはずです。Google は、DCIQ の成し遂げた仕事や今後の仕事が、他の企業や業界があらゆる意味で「環境にやさしく」なることに貢献できるよう望んでいます。

1『United States Data Center Energy Usage Report』、米国エネルギー省ローレンス バークレー国立研究所、2016 年