Environment Projects

機器學習技術為資料中心開闢了嶄新的節能方法

一名技術人員站在資料中心的牆壁前。

虛擬世界建立在實體基礎架構之上,無論是使用者提交的搜尋查詢、傳送的電子郵件、瀏覽的網頁、張貼的留言還是載入的影片都會經過資料中心,有些資料中心占地廣大,甚至比一個足球場還要大。數千架伺服器日夜不歇地嗡嗡運轉,當然會消耗掉大量能源,目前現有的全部資料中心大約可用掉全世界 2% 的電力,如果放任不管,這些資料中心的能源需求便會隨著網際網路的用量上升而快速增加;因此,當務之急就是要盡量提升資料中心的運轉效率。

幸好,雖然運算需求激增,資料中心所使用的電力增長量在過去幾年已經趨於平緩,這很大程度是因為在擴張設施時,有許多機會可以提升效率。1不過,要抓住這些機會可沒有這麼簡單。資料中心的能源效率標準計量指標稱為電力使用效能 (power usage effectiveness,簡稱 PUE),這項指標會受到很多變因的影響。一般來說,一座設施有許多不同類型的設備,包含冷水機組、冷卻塔、抽水機、熱交換器、控制系統等,每種設備的配置都不同,彼此之間的相互作用也很精細複雜,有時甚至和一般慣例背道而馳。如果再加入氣溫和風扇速度等因素,整個系統錯綜複雜的程度更是筆墨難以形容。試著想像一個較為簡單的情境:10 件不同設備各有 10 種不同配置,這表示可能的配置組合數量為 10 的 10 次方,也就是有 100 億種,根本不可能一一進行實地測試,何況是現實中擁有大量精密設備的資料中心,其中可能的配置組合數量更是天文數字。

比利時資料中心的冷卻塔
比利時資料中心的冷卻塔

自資料中心的構想誕生以來,Google 就一直在思考如何提升資料中心效率。我們很早就決定要從頭開始設計和建造自己的設施,這樣才能持續試驗新的冷卻技術和營運策略。我們的資料中心採用先進的冷卻技術,不用一般常見的機械式冷水機組,而是運用效率極高的蒸發式冷卻法,也盡可能使用外部空氣。此外,透過安裝智慧型溫度及照明控制設備,並重新設計配電方式以儘量減少能量損耗,也成功降低了設施的能源用量。我們的高效能伺服器專為降低能源用量而設計,去除了不必要的元件 (例如視訊卡),且盡可能保持高度運轉,如此才能用較少的伺服器達成更多作業。其他還有更多類似措施。

那麼這些努力究竟達成了哪些成果呢?2014 年春季,Google 資料中心的能源用量已經是業界平均用量的一半。接下來的問題自然是:還能更進一步提升資料中心的能源效率嗎?一名效率工程師 Jim Gao 在修習機器學習線上課程時,對這個問題有了興趣並決定要找出答案。

機器學習技術讓電腦能夠在未經程式明確定義的情況下,透過重複經驗自學如何解譯大量資料。Google 已經將機器學習技術應用在改良翻譯及影像辨識等功能。舉例來說,如果你在 Google 相簿上尋找人們擁抱的相片,那正是靠著機器學習技術才能找到你要的相片。

資料中心的水閥箱和壓力感測器
資料中心的水閥箱和壓力感測器

Gao 希望機器學習技術能「找出資料中隱藏的脈絡」,幫助他從龐大繁雜的資料中心資訊中理出頭緒。他有「整整六個月不斷遭遇錯誤,簡直要搔破腦袋」,終於建置出一套概念驗證模型,內含資料中心所有元件。他說:「那個程式是很陽春的原型,只是為了要驗證這個想法是否可行,是否值得投入更多心力。」

一開始的測試結果看起來不太樂觀。Gao 表示:「我最初的期待全部落空了,那個模型無論在預測 PUE 還是我們的行動上,表現都不太好。」事實上,針對如何節省最多能源這個問題,模型的首要建議是關閉整座設施。嚴格來說這個答案不能算錯,但是也幫不上什麼忙。Gao 說:「結果我們還得強迫人工智慧當個負責任的大人,好好想辦法而不是毫無作為。」他變更了幾個變數後又再次進行模擬,藉由不斷調整讓模型越來越接近能夠最精準預測 (因此也最有機會改進) 設施實際效能的配置。當他認為原型已相當精確,便發表了一份白皮書,並開始與現場營運小組合作,開始在實體設施上執行模型提出的建議做法。

10 件不同設備各有 10 種不同配置,這表示可能的配置組合數量為 10 的 10 次方,也就是有 100 億種,根本不可能一一進行實地測試。

於此同時,Google 的一流人工智慧研究團隊 DeepMind 在一篇論文中介紹了 DQN,這是一個電腦代理程式,而且是 Atari 遊戲高手,不管玩哪款 Atari 遊戲都游刃有餘;這項發表造成了不小的轟動,因為訓練程式玩特定一款遊戲是一回事,讓程式自學並將所有屬於不同範疇的遊戲全部征服,那又是另一回事。這個消息讓機器學習社群興奮不已,而當 Gao 聽聞 DQN 的創舉,他立刻寄了一封電子郵件給 DeepMind 的負責人 Mustafa Suleyman,主旨寫著:機器學習 + 資料中心 = 無與倫比?

Suleyman 也同意 Gao 的專案確實無與倫比,因此 DeepMind 開始與 Gao 以及他的資料中心智慧 (DCIQ) 小組合作,共同打造更為「健全而通用」的運作模型。訓練代理程式玩 Atari 遊戲時,當然不會希望程式只專精一款遊戲,而是希望能發展出通用智慧,成為所有 Atari 遊戲的高手。要通用,不要專精,對資料中心的機器學習技術而言也是如此。如果為每個資料中心都建立一個自訂模型程式,情況會簡單得多,但 Gao 表示:「如果能創造出所有人都能利用的通用智慧,絕對更有價值。」

特寫畫面:資料中心內的硬體

於是他們便付諸實行。十八個月後,已經有數間設施開始試用這些模型,並且也成功減少了 40% 的冷卻耗能以及 15% 的整體能源開支。即使其中一項試驗計劃已經順利讓一間參加測試的 Google 資料中心創下 PUE 新低記錄,不斷成長的 DCIQ 小組卻認為這只是機器學習雄厚實力的一小部分,這套技術應該還能有更廣泛的應用。舉例來說,Google 的環保小組希望可以減少營運過程中產生的碳排放量,硬體小組希望可以降低元件故障率,負責平台的人員則想知道如何減少伺服器耗能,機器學習技術就可以在這些領域幫助他們達成理想目標。

不用說,機器學習技術能為全世界帶來的貢獻絕對遠大於此。Gao 說:「我們會設法提供開放原始碼,因為我們深信我們開發出來的成果也可以讓其他人受惠。」第二份白皮書預計近期就會發佈,當中會有更多 DCIQ 小組的工作成果細節,希望這能幫助其他資料中心降低耗能,也能為其他種類具備基礎架構的設施 (例如發電廠、工廠等) 提供實用參考。我們期待 DCIQ 小組目前及未來的工作成果能夠協助其他公司和產業將營運過程變得更加環保。

1「美國資料中心能源用量報告」,美國能源部,勞倫斯柏克萊國家實驗室,2016 年。