Llegamos a ustedes gracias a:



Noticias

IBM acelera el aprendizaje profundo mediante el uso de varios servidores

[10/08/2017] Para todos aquellos que se sienten frustrados por el tiempo que se requiere para entrenar a los modelos de aprendizaje profundo, IBM tiene una buena noticia: Ha dado a conocer una manera de dividir automáticamente los trabajos de entrenamiento de aprendizaje profundo entre varios servidores físicos -no solo GPUs individuales, sino entre sistemas completos con sus propios conjuntos separados de GPUs.

Ahora la mala noticia: Está disponible solo en el paquete de software PowerAI 4.0 de IBM, que se ejecuta exclusivamente en los propios sistemas de hardware OpenPower de IBM.

El Distributed Deep Learning (DDL) no requiere que los desarrolladores aprendan todo un nuevo marco de trabajo de aprendizaje profundo. Reempaqueta varios marcos de trabajo comunes de aprendizaje de máquina: TensorFlow, Torch, Caffe, Chainer y Theano. Los proyectos de aprendizaje profundo que utilizan esos marcos pueden ejecutarse en paralelo en varios nodos de hardware.

IBM sostiene que la aceleración ganada por crecer en nodos es casi lineal. Una evaluación comparativa, que usa los conjuntos de datos ResNet-101 e ImageNet-22K, necesitó 16 días para completar un servidor IBM S822LC. La misma evaluación comparativa, distribuida en 64 sistemas, concluyó en siete horas, o 58 veces más rápido.

IBM ofrece dos formas para usar el DDL. Una, puede usar el dinero en los servidores para los cuales está diseñado, los cuales presentan dos unidades Nvidia Tesla P100, cada uno; eso es 50 mil dólares por cabeza. Dos, puede ejecutar el software PowerAI en una instancia de nube proporcionada por el socio de IBM, Nimbix, por alrededor de 0,43 dólares por hora.

Algo que no puede hacer es ejecutar PowerAI en los sistemas commodity Intel x86. IBM no planea ofrecer PowerAI en esa plataforma, señalando la fuerte integración entre los componentes propietarios de PowerAI con los sistemas OpenPower diseñados para soportarlos. La mayor parte de la magia, afirma IBM, proviene de un sistema de interconexión de software máquina a máquina que funciona sobre cualquier tejido de hardware que se encuentre disponible. Generalmente, ese es un enlace InfiniBand, aunque IBM sostiene que también puede funcionar en un Ethernet gigabit convencional (aun así, IBM admite que no funcionará en cualquier lugar así de rápido).

Desde hace ya un tiempo es posible hacer el entrenamiento en aprendizaje profundo en varios sistemas en un cluster, aunque cada marco de trabajo tiende a tener su propio conjunto de soluciones. Con Caffe, por ejemplo, existe el Parallel ML System o CaffeOnSpark. TensorFlow también se puede distribuir en varios servidores, pero, nuevamente, cualquier integración con otros marcos de trabajo es algo que tendrá que añadir a mano.

La ventaja señalada por IBM es que funciona con varios marcos de trabajo y sin mucho trabajo pesado necesario para configurar las cosas. Pero todo esto al costo de trabajar sobre los propios fierros de IBM.