Proyectos ambientales

El aprendizaje automático ofrece alternativas para el ahorro de energía en los centros de datos

Diciembre de 2016
Técnico parado frente a la pared de un centro de datos

El mundo virtual se basa en una infraestructura física. Cada búsqueda que se hace, cada correo electrónico que se envía, cada página que se carga, cada comentario que se publica y cada video que se sube pasa por centros de datos que pueden ser más grandes que un campo de fútbol. Esos miles de servidores requieren grandes cantidades de energía; juntos, todos los centros de datos existentes utilizan aproximadamente el 2% de la electricidad del mundo; y, si no se controla, es posible que esa demanda de energía crezca tan rápido como el uso de Internet. Por ello, lograr que los centros de datos funcionen con la mayor efectividad posible es un aspecto muy importante.

Afortunadamente, a pesar de la alta demanda informática, en los últimos años, se niveló el uso de electricidad de los centros de datos mayormente gracias la enorme cantidad de oportunidades para mejorar la eficiencia a medida que crecían estas instalaciones.1 Sin embargo, aprovechar estas oportunidades puede ser un proceso complicado. La medida estándar de eficiencia energética de los centros de datos (la eficacia del uso de energía, PUE) puede verse afectada por decenas de variables. Una instalación típica tiene muchos tipos de equipos, como enfriadores, torres de enfriamiento, bombas de agua, intercambiadores de calor y sistemas de control, cada uno con sus propias opciones de configuración; y todos interactúan en formas intrincadas y a menudo contrarias a la intuición. Calcular factores como la temperatura del aire, la velocidad de los ventiladores y la complejidad del sistema se convierte en una tarea astronómica. Consideremos un escenario simplificado: solo 10 equipos, cada uno con 10 opciones de configuración. Estos equipos tendrían 10 a la décima potencia, o 10,000 millones, de posibles configuraciones; se trata de una serie de posibilidades que supera la capacidad de verificación de cualquier persona. Sin embargo, se trata de muchas menos posibles configuraciones que las que puede haber en los centros de datos reales.

Torres de enfriamiento en un centro de datos de Bélgica
Torres de enfriamiento en un centro de datos de Bélgica

Google piensa en la eficiencia de los centros de datos desde que comenzó a pensar en ellos. Desde el principio, decidimos diseñar y construir nuestras propias instalaciones desde cero para poder probar continuamente nuevas tecnologías de enfriamiento y estrategias de operación. Nuestros centros de datos usan técnicas avanzadas que aplican refrigeración por evaporación altamente eficiente o aire exterior cada vez que es posible, en lugar de enfriadores mecánicos. Además, redujimos el consumo de energía de las instalaciones gracias a la instalación de controles inteligentes de temperatura e iluminación, y al rediseño de la distribución de energía con el fin de reducir al mínimo la pérdida de energía. Nuestros servidores de alto rendimiento están especialmente diseñados para usar la menor cantidad de energía posible, no contienen componentes innecesarios como tarjetas de video y se mantienen tan ocupados como sea posible para poder hacer más con menos servidores, entre otras especificaciones.

El resultado de todos estos esfuerzos: en el segundo trimestre de 2014, los centros de datos de Google consumieron un 50% menos de energía que el promedio del sector. Por supuesto, la siguiente pregunta era si podían funcionar aún mejor. Tras una clase en línea sobre aprendizaje automático que le despertó interés, el ingeniero de eficiencia energética Jim Gao decidió averiguarlo.

El aprendizaje automático proporciona a las computadoras la capacidad de aprender sin necesidad de programarlas explícitamente. Para ello, se enseñan a sí mismas a interpretar grandes cantidades de datos mediante la repetición. Google ya usa el aprendizaje automático para mejorar funciones como la traducción y el reconocimiento de imágenes. Cuando le pedimos a Google Fotos imágenes de personas que se abrazan, es el aprendizaje automático el que busca las fotos.

Colector de válvula de agua y sensores de presión en un centro de datos
Colector de válvula de agua y sensores de presión en un centro de datos

Gao esperaba que "encontrar la historia oculta en los datos" pudiera ayudarlo a comprender mejor la avalancha de información de los centros de datos. Así, pasó "seis meses cometiendo muchos errores y dándose la cabeza contra la pared" a fin de crear un modelo de prueba de concepto con todos los componentes de un centro de datos. "Se trataba de un código muy básico, parecido a un prototipo, para demostrar que la idea era válida y valía la pena".

Los resultados iniciales no fueron del todo prometedores. "Las primeras predicciones eran totalmente equivocadas", admite Gao. "No fue muy bueno el trabajo de los modelos en términos de predicción de PUE o las consecuencias de nuestras acciones". De hecho, la primera recomendación del modelo para lograr la mayor conservación de energía fue cerrar las instalaciones. No se trataba de una recomendación errónea, pero claramente era poco útil. "Tuvimos que forzar nuestra IA para que fuera un adulto responsable y se disciplinara un poco", explica Gao. Entonces, cambió algunas variables y volvió a ejecutar simulaciones. Con el tiempo, ajustó el modelo para que se asemejara cada vez más a la configuración que mejor predecía el rendimiento real de las instalaciones —y que, por lo tanto, tenía mejores posibilidades de mejorarlo—. Cuando sintió que el prototipo era lo suficientemente preciso, publicó un informe y comenzó a trabajar con el equipo de operaciones del lugar para implementar las recomendaciones del modelo en las instalaciones actuales.

Solo 10 equipos, cada uno con 10 opciones de configuración. Estos equipos tendrían 10 a la décima potencia, o 10,000 millones, de posibles configuraciones. Se trata de una serie de posibilidades que supera la capacidad de verificación de cualquier persona.

Al mismo tiempo, DeepMind, el grupo principal de investigación de inteligencia artificial de Google, había causado un gran revuelo con un documento que describía DQN, un agente informático capaz de jugar muy bien a los videojuegos de Atari. A todos los videojuegos de Atari. Había una gran diferencia entre entrenar un programa para que jugara bien un videojuego en particular y enseñarle a perfeccionarse en toda una serie de juegos. Para la comunidad del aprendizaje automático, se trató de un avance fabuloso. Cuando se enteró Gao, le envió rápidamente un correo electrónico al director de DeepMind, Mustafa Suleyman, con el asunto "Aprendizaje automático + centros de datos = ¿impresionante?".

Suleyman coincidió con Gao en que era algo impresionante, y DeepMind comenzó a trabajar con Gao y su equipo de inteligencia de centro de datos (DCIQ) en modelos de trabajo más "robustos y generales". Del mismo modo que no buscamos un agente sumamente enfocado capaz de jugar un único videojuego de Atari, sino una inteligencia generalizada capaz de aprender todos los videojuegos, lo general también le gana a lo específico en términos de aprendizaje automático para los centros de datos. Sería relativamente simple crear un programa personalizado para modelar cada centro de datos, pero "sería mucho mejor", dice Gao, "crear una inteligencia general que pudiera aprovecharse en todos los centros".

Primer plano del hardware de un centro de datos

Eso fue lo que hicieron. Dieciocho meses después, se hicieron pruebas piloto de los modelos en varias instalaciones, lo que dio como resultado una reducción del 40% de la energía usada para refrigeración y una reducción del 15% en los gastos generales de energía. Aunque una de estas pruebas piloto ya alcanzó un nuevo mínimo en el PUE en uno de los centros de datos de prueba de Google, el equipo de DCIQ, cada vez más numeroso, cree que se trata apenas de la base de las aplicaciones más generales del aprendizaje automático. El equipo ambiental de Google quiere que nuestras operaciones emitan menos carbono. Los operadores de hardware aspiran a que se produzcan menos fallas de componentes. Los equipos de plataformas se preocupan por el consumo de energía de los servidores. El aprendizaje automático puede ayudarlos a todos a alcanzar una eficiencia soñada.

Sin mencionar al resto del mundo… "Queremos que nuestro código sea realmente abierto en este aspecto", afirma Gao. "Creemos firmemente que el trabajo que hacemos también puede beneficiar a otros". Pronto se publicará un segundo informe con más detalles sobre el trabajo del DCIQ. Se espera que ayude a otros centros de datos a reducir el uso de energía, y a otros tipos de instalaciones (plantas de energía, fábricas, etc.) a contar con infraestructuras que también puedan beneficiarlos. Esperamos que el trabajo que el DCIQ ha hecho hasta ahora y hará en el futuro ayude a otras industrias y empresas a ser más ecológicas y rentables.

1“United States Data Center Energy Usage Report” (Informe sobre el uso de energía del centro de datos de Estados Unidos), Departamento de Energía de EE.UU., Laboratorio Nacional Lawrence Berkeley (2016).