环境项目

机器学习为我们数据中心找到节能方式

2016 年 12 月
一位技术人员站在数据中心的墙壁前。

虚拟世界建立在实体基础架构之上。用户提交的每一次搜索、发送的每一封电子邮件、提供的每一个网页、发表的每一条评论以及加载的每一个视频都会经过可能比足球场还大的数据中心。成千上万个机架上嗡嗡运行的服务器需要使用大量能源;所有现有数据中心的总用电量约占全球用电量的 2%,如果不加以控制,那么互联网的普及速度有多快,数据中心对能源的需求量增幅就有多大。因此,最大限度地提高数据中心运转的能效至关重要。

值得庆幸的是,在过去几年中,尽管对计算的需求量激增,但数据中心的用电量已趋于平稳。这在很大程度上是因为我们在扩大设施规模的过程中抓住了大量机会来提高能效。1不过,抓住这些机会却是一个非常复杂的过程。数据中心能效的标准衡量指标是能源使用效率 (PUE),该指标会受到很多因素的影响。一个典型的厂区会有多种类型的设备,包括冷却器、冷却塔、水泵、换热器以及控制系统,每台设备又都有自己的设置,所有这些设备之间的交互方式错综复杂,而且在很多情况下与我们想象的不同。再加上像气温、风扇速度等因素的影响,系统的复杂程度简直难以想象。我们以一种简化的情形为例:假设只有 10 台设备,每台设备有 10 项设置,那么它们将有 10 的 10 次方(即 100 亿)种可能的配置,这个数字过于庞大,没有人可以真正进行实际测试,而在实际的数据中心内,配置的可能性远远不止如此。

比利时数据中心的冷却塔
比利时数据中心的冷却塔

Google 从开始构想数据中心以来就一直在思考数据中心的能效问题。很久以前,我们就决定从头开始设计并建造自己的厂区,以便不断试验新的冷却技术和运营策略。在 Google,数据中心采用先进的冷却技术,尽可能使用高效的蒸发冷却或户外空气冷却方式,尽量避免使用机械冷却器。我们安装了智能温度和照明控制设备,重新设计了能源分配方式,以便尽可能减少能源损失,从而成功降低了厂区能耗。高性能服务器都是定制设计的,去除了不必要的组件(例如显卡),能够最大限度地减少能耗。我们还尽可能提高每台服务器的使用率,从而用更少的服务器完成更多工作。此外我们还采取了很多其他措施,此处不再一一列举。

所有这些努力的结果是:到 2014 年春季,Google 数据中心的能耗比行业平均水平低 50%。当然,这意味着下一个问题就是,我们能否进一步提高它们的能源效率。一门关于机器学习的在线课程引起了能效工程师 Jim Gao 的兴趣,于是他决定一探究竟。

机器学习就是让计算机通过不断重复来学习如何解读大量数据,从而在没有明确的编码指示的情况下自学新的知识和技能。Google 已将机器学习技术应用于改进翻译和图片识别等功能。当您在 Google 相册中搜索人们拥抱的照片时,正是靠机器学习技术来找出您想要的照片。

数据中心内的水阀装置和压力传感器
数据中心内的水阀装置和压力传感器

Gao 希望通过“发现数据中隐藏的秘密”来更好地了解数据中心内的海量信息。在花费了 6 个月、历经无数错误、绞尽脑汁想尽一切办法后,他终于构建了一个概念验证模型,其涵盖了一个数据中心内的所有部件/组件。他说:“这只是一个非常粗糙的代码,只能算是一个基础的原型,用来证明这个想法是有效的,值得进一步探索。”

但最初的结果并不十分理想。Gao 坦言:“最初的预测完全错误。这些模型在预测 PUE 和我们行为的后果方面,表现得不是很好。”事实上,对于如何达到最大限度的节能,这个模型给出的第一个建议是关闭整个设施。严格来说,这个建议并不是不正确,但是没有什么帮助。Gao 说:“我们必须将我们的 AI 变成一个负责任的成年人,让它更自律一些。”他更改了一些变量并再次进行模拟,如此不断调整模型的配置,使其尽可能准确地预测厂区的实际表现。如果模型能够进行准确预测,那么就有很大可能帮助改进厂区的实际表现。在 Gao 觉得自己的原型足够精确后,他发布了一份白皮书,并开始与现场运营团队合作,在实际设施中实施模型提供的建议。

我们以一种简单的情形为例:假设只有 10 台设备,每台设备有 10 项设置,那么它们就有 10 的 10 次方(即 100 亿)种可能的配置,这个数字过于庞大,没有人可以真正进行实际测试。

与此同时,Google 领先的人工智能研究小组 DeepMind 发表的一篇介绍 DQN 的论文引起了轰动,DQN 是一种非常擅长玩 Atari 游戏的计算机代理。所有的 Atari 游戏都不在话下。训练一个程序玩好一款特定的游戏是一回事,但是让一个程序能够通过自学做到在所有游戏中都表现出色则是另一回事。这在机器学习圈内无疑是一个令人震惊的消息。听到这个消息后,Gao 很快给 DeepMind 负责人穆斯塔法·苏莱曼 (Mustafa Suleyman) 发送了一封电子邮件,该邮件的标题是:机器学习 + 数据中心 = 了不起?

苏莱曼认同 Gao 所做的确实是一件非常了不起的事情,于是 DeepMind 开始与 Gao 及其数据中心智能团队 (DCIQ) 合作开发更加“强大和通用”的工作模型。就像您不想要一个只会玩一种 Atari 游戏的高度专注的代理,而想要一个能够学习玩所有 Atari 游戏的通用智能一样,当涉及到数据中心机器学习时,通用智能也比专注智能强。开发可以模拟各个数据中心的自定义程序相对比较简单,不过 Gao 说:“如果我们可以创造出一种所有人都可以利用的通用型智能,那就更好了。”

数据中心内部硬件特写

他们做到了。18 个月后,这些模型已在多个厂区投入试运行,并使冷却能耗和总体能源开销分别降低了 40% 和 15%。虽然其中一个试运行计划成功地将 Google 一个测试数据中心的 PUE 降到了历史新低,但不断成长的 DCIQ 团队却认为机器学习技术可以应用到更广泛的领域,而这只是其中的冰山一角。例如,Google 的环保团队希望我们在运营中能够减少碳的排放,硬件运维团队希望降低组件故障率,平台负责人员则关心服务器的能源消耗,机器学习可以帮助他们都实现提高效率的愿望。

当然,机器学习技术也同样能造福于世界上的其他人。Gao 说:“对于这个项目,我们正努力做到真正的开源。我们坚信我们所做的工作也能造福他人。”他们很快将会发布第二份白皮书,在其中提供更多关于 DCIQ 工作的细节,希望能帮助其他数据中心降低能耗,同时让无数拥有相关基础架构的其他类型的厂区(发电站、工厂等)也能从中受益。我们希望,DCIQ 已经做的和将要做的工作能够帮助其他公司和行业变得更加绿色环保。

1《美国数据中心能耗报告》(United States Data Center Energy Usage Report),美国能源部,劳伦斯伯克利国家实验室,2016 年。