Llegamos a ustedes gracias a:



Reportajes y análisis

Cómo gestionar la factura de luz mientras adopta la IA

[01/03/2021] La inteligencia artificial (IA) y el aprendizaje automático (ML) pueden ser herramientas invaluables para estimular la innovación, pero tienen requisitos de gestión diferentes a los de las típicas aplicaciones informáticas empresariales que se ejecutan con tasas moderadas de utilización de CPU y memoria. Dado que la IA y el ML tienden a ejecutar cálculos intensos a tasas de utilización muy altas, los costos de energía y refrigeración pueden consumir una proporción del presupuesto mayor de lo que un grupo de TI podría esperar.

No es un problema nuevo, pero su impacto se está intensificando.

A medida que las aplicaciones con mayor carga de CPU, como el almacenamiento de datos y la inteligencia empresarial, se han ido imponiendo, el departamento de TI a menudo no se da cuenta de la factura de luz que está acumulando, sobre todo porque suele ir a parar al departamento de operaciones, no al de TI.

"Los jefes de equipo de ciencia de datos suelen tener carta blanca para procesar cualquier cosa, en cualquier momento", señala Mark Swartz, director general y fundador del desarrollador de IA, Neural. "Los días de estos enfoques lujosos para resolver los requisitos de computación pesados comenzarán a tender a la baja en los próximos cinco años".

Una de las razones para un mayor escrutinio de los costos de luz y refrigeración es que la IA suele depender de la computación de alto rendimiento (HPC), mientras que las aplicaciones de almacenamiento de datos e inteligencia empresarial pueden ejecutarse en sistemas estándar. La HPC y la IA consumen mucha más luz, y nadie debería verse sorprendido por el aumento de la factura, sostiene Addison Snell, director general de Intersect360, una empresa de investigación especializada en temas de HPC.

"Hay costos asociados a cualquier tipo de esfuerzo informático que pueda calentarse. Si no se está preparado para la IA, puede sorprender el costo de luz y refrigeración si se piensa que será el mismo que el de los servidores informáticos empresariales [normales]", afirma Snell.

Entonces, ¿qué se puede hacer para evitar la sorpresa? He aquí seis pasos a seguir.

1. Busque opciones de energía menos costosas

Si tiene la opción de colocar su centro de datos fuera de la oficina corporativa, busque buenas fuentes de energía renovable, empezando por la hidroeléctrica. La energía hidroeléctrica es una de las fuentes de energía eléctrica más baratas. "Hay una razón por la que Microsoft y Google tienen sus centros de datos ubicados cerca de grandes fuentes de agua", señala Steve Conway, asesor principal de la dinámica del mercado HPC en Hyperion Research.

La energía eólica también es más barata que los combustibles fósiles, por lo que muchos centros de datos están situados en el Medio Oeste, y la electricidad es más barata en las zonas rurales. La mayoría de los centros de datos están en las grandes ciudades por razones de necesidad; por ejemplo, en Estados Unidos, el norte de Virginia es el mayor mercado de centros de datos por su proximidad al gobierno federal, pero no es inaudito colocar centros de datos en Iowa (Microsoft, Google, Facebook), Oklahoma (Google) y Nuevo México (Facebook).

Además, hay que intentar ejecutar las aplicaciones de uso intensivo de la informática por la noche, cuando las tarifas de luz tienden a bajar durante las horas de menor consumo, indica Conway.

2. Utilice la IA para optimizar el uso de la energía

Puede parecer contradictorio, pero una de las mejores formas de gestionar las computadoras de su centro de datos es la propia IA. Puede optimizar la energía y la refrigeración, mejorar la distribución de la carga de trabajo, y realizar un mantenimiento predictivo para avisar de una falla inminente del hardware. Se trata de un tipo diferente de IA, de supervisión más que de aprendizaje automático, y no es tan exigente para el sistema. Los servidores también podrían utilizar sensores para vigilar los picos de las unidades de suministro y los CPUs, e informar a los clientes si los sistemas se están ejecutando más de lo normal, indica Swartz.

"Solo con el uso adecuado de la IA, puede ayudar a reducir la energía. Hay muchísimas aplicaciones que pueden funcionar de forma más eficiente si la gente empieza a aplicar la IA", afirma Jo De Boeck, director de operaciones de imec, un centro de investigación y desarrollo centrado en las tecnologías digitales.

3. Utilice chips de menor potencia siempre que pueda

El aprendizaje automático es un proceso de dos pasos: entrenamiento e inferencia. La parte de entrenamiento consiste en enseñarle al sistema a reconocer algo, como imágenes o patrones de uso. Esta es la parte que requiere más trabajo de procesamiento. La inferencia es una simple pregunta de sí/no: ¿Coincide con el modelo? Se necesita mucha menos potencia de procesamiento para encontrar una coincidencia que para entrenar al sistema a reconocerla.

Una GPU es la mejor opción para el entrenamiento, pero consume hasta 300 vatios de energía. Se puede utilizar una GPU para la inferencia, pero ¿por qué hacerlo cuando una pieza de mucho menor consumo puede servir? Intel tenía un chip de inferencia especial, el Nervana, que ha dejado de utilizar en favor del chip Habana. En las primeras pruebas, Nervana utilizaba entre 10 y 50 vatios de potencia para realizar la inferencia.

La solución es desarrollar un hardware más específico para las aplicaciones, afirma De Boeck. "Así, en lugar de utilizar solo CPUs o GPUs, que siguen siendo de uso general, se observa una especialización cada vez mayor en el hardware. Se añaden al hardware bloques de construcción de unidades funcionales especiales para que los algoritmos de aprendizaje automático aprendan de forma más eficiente".

4. Reducir el tiempo de entrenamiento

Otra forma de eludir los efectos del entrenamiento que consumen demasiada energía es hacerlo menos tiempo. A medida que se adquiere experiencia, se revisan los algoritmos de entrenamiento y se ve qué se puede recortar sin perder precisión.

"La inferencia más avanzada requiere mucho entrenamiento para realizar tareas sencillas. La gente está trabajando en la mejora de la inferencia, para que a medida que la máquina se haga más inteligente, se necesite menos entrenamiento para llevarla a cabo. Añadir más inteligencia a la inferencia significa menos entrenamiento", indica Conway.

El entrenamiento suele realizarse con matemáticas de precisión simple (32 bits) o doble (64 bits). Cuanto mayor es la precisión, más lento es el procesamiento, pero el consumo de energía no varía. Lo que muchos desarrolladores de IA, entre ellos Nvidia y Google, llevan diciendo desde hace tiempo es que no se necesita tanta precisión en la mayoría de los casos, excepto quizá en el procesamiento de imágenes y vídeo, donde la precisión gráfica es importante.

"Todavía se está trabajando mucho para intentar reducir, por ejemplo, el número de operaciones necesarias, intentando hacer que estas redes sean lo más compactas posible o explotando propiedades específicas de los algoritmos. Las empresas están tratando de explotar las características específicas de las redes neuronales reduciendo o descubriendo que muchos de los parámetros son realmente cero y, por ende, no ejecutan el cálculo. Se trata de un proceso llamado "poda"", indica De Boeck.

El cálculo de precisión reducida ha ido suscitando interés en los últimos años. El formato bfloat16 es un formato en punto flotante de 16 bits desarrollado por el IEEE y utilizado en el procesador de IA de Intel, los procesadores Xeon y las FPGA, y las TPU y el marco TensorFlow de Google. Este se ha hecho popular porque en la mayoría de los casos es lo suficientemente preciso.

5. Optimizar siempre el entrenamiento

También es importante rehacer el entrenamiento de inferencia con regularidad para mejorar y optimizar los algoritmos, comenta De Boeck. "En teoría, en la práctica se puede ejecutar el entrenamiento solo unas pocas veces, pero no se puede decir 'creo que ya está hecho para siempre'", anota. "Estas empresas intentan constantemente mejorar el rendimiento de estos algoritmos de IA, por lo que los entrenan o reentrenan continuamente".

Swartz cuenta que en su experiencia en ML/IA, sus equipos tienen un proceso en el que todos están de acuerdo con los umbrales de los sets de entrenamiento y con el "tiempo de cocción" para construir nuevos modelos. Al añadir nueva información de entrenamiento, se invierte menos tiempo en volver a entrenar los modelos.

"Todos los modelos deben incorporar el aprendizaje por transferencia, que es una forma de localizar el delta entre dos modelos y solo añadir los datos "nuevos" en el siguiente set de entrenamiento que se va a procesar. Esto lo hicieron manualmente nuestros equipos durante años, pero ahora tenemos algoritmos que pueden localizarlo por sí mismos", indica Swartz.

6. Mirar a la nube

Todos los principales proveedores de la nube tienen una oferta de IA, con Google a la cabeza con TensorFlow, su procesador de IA. Esto puede resultar más económico, señala Snell, especialmente si hay que empezar desde cero.

"La gente suele buscar la nube para compensar los costos en las instalaciones. Que sea rentable depende de la utilización y del proveedor. La energía es consumida en algún lado. El proveedor de la nube paga la factura de luz como parte del costo. No es automáticamente más barato y probablemente querrá recurrir a la externalización si carece de habilidades, como la ciencia de los datos", afirma.

Puede ver también